av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術(shù)文章
文章詳情頁

python lxml解析中文的問題

瀏覽:78日期:2022-07-26 18:49:01

問題描述

使用lxml來抓取中文字符,抓到的結(jié)果很蛋疼,不知道怎么處理...

comUrl='http://m.51job.com/search/codetail.php?coid=4108723'res=requests.get(comUrl)html=etree.HTML(res.text)p=html.xpath('//aside')[1].xpath('./p') #結(jié)果為[<Element p at 0x7bf01c8>, <Element p at 0x78f4408>, <Element p at 0x69db388>]p[0].xpath('./span/text()') #這個是想要抓取的字符

結(jié)果抓到的是這樣的 [u’xe6x80xa7xe8xb4xa8’]unicode但是內(nèi)容是str的編碼,請問怎么把這個東西轉(zhuǎn)成中文?正常應(yīng)該是’xe6x80xa7xe8xb4xa8’或者u’u6027u8d28’

問題解答

回答1:

’’.join(map(lambda x:chr(x), map(lambda x:ord(x), u’xe6x80xa7xe8xb4xa8’))).decode(’utf-8’)回答2:

出現(xiàn)這種情況,一般是requests猜錯了網(wǎng)頁的編碼了因此指定requests的編碼就可以了.res.encoding =’utf-8’

In [33]: comUrl='http://m.51job.com/search/codetail.php?coid=4108723' ...: res=requests.get(comUrl) ...: res.encoding =’utf-8’ ...: html=etree.HTML(res.text) ...: p=html.xpath('//aside')[1].xpath('./p') #結(jié)果為[<Element p at 0x7b ...: f01c8>, <Element p at 0x78f4408>, <Element p at 0x69db388>] ...: p[0].xpath('./span/text()') #這個是想要抓取的字符 ...: Out[33]: [u’u6027u8d28’]In [34]: print _[0]性質(zhì)

標簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 日韩欧美久久 | 欧美日韩亚 | 91成人免费电影 | 日韩精品一区二区三区高清免费 | 精品久久一区二区三区 | 欧美日韩亚洲视频 | 国产精品99久久久久久久久久久久 | 国产99视频精品免费播放照片 | 亚洲中午字幕 | 亚洲欧美在线一区 | 成人av在线播放 | 国产精品小视频在线观看 | 久久小视频 | 91在线精品一区二区 | 国产精品免费一区二区三区四区 | 精品一区二区三区在线播放 | 日韩av在线一区二区 | 亚洲成人福利在线观看 | 日韩在线视频网址 | 精品一区二区三区在线观看国产 | 精品一区二区三区四区五区 | 免费激情 | 综合色久 | 插插插干干干 | 伊人网99 | 国产精品亚洲二区 | 成人av一区| 亚洲一卡二卡 | 国产我和子的乱视频网站 | 久草新视频 | 一区二区三区国产 | 久久久久久国产精品免费免费 | 老牛嫩草一区二区三区av | 国产精品美女www爽爽爽视频 | 精品成人佐山爱一区二区 | 成人影院在线观看 | 琪琪午夜伦伦电影福利片 | 欧美激情国产日韩精品一区18 | 男人的天堂中文字幕 | 看特级黄色片 | 久久久久久亚洲精品 |