av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python lxml解析中文的問題

瀏覽:79日期:2022-07-26 18:49:01

問題描述

使用lxml來(lái)抓取中文字符,抓到的結(jié)果很蛋疼,不知道怎么處理...

comUrl='http://m.51job.com/search/codetail.php?coid=4108723'res=requests.get(comUrl)html=etree.HTML(res.text)p=html.xpath('//aside')[1].xpath('./p') #結(jié)果為[<Element p at 0x7bf01c8>, <Element p at 0x78f4408>, <Element p at 0x69db388>]p[0].xpath('./span/text()') #這個(gè)是想要抓取的字符

結(jié)果抓到的是這樣的 [u’xe6x80xa7xe8xb4xa8’]unicode但是內(nèi)容是str的編碼,請(qǐng)問怎么把這個(gè)東西轉(zhuǎn)成中文?正常應(yīng)該是’xe6x80xa7xe8xb4xa8’或者u’u6027u8d28’

問題解答

回答1:

’’.join(map(lambda x:chr(x), map(lambda x:ord(x), u’xe6x80xa7xe8xb4xa8’))).decode(’utf-8’)回答2:

出現(xiàn)這種情況,一般是requests猜錯(cuò)了網(wǎng)頁(yè)的編碼了因此指定requests的編碼就可以了.res.encoding =’utf-8’

In [33]: comUrl='http://m.51job.com/search/codetail.php?coid=4108723' ...: res=requests.get(comUrl) ...: res.encoding =’utf-8’ ...: html=etree.HTML(res.text) ...: p=html.xpath('//aside')[1].xpath('./p') #結(jié)果為[<Element p at 0x7b ...: f01c8>, <Element p at 0x78f4408>, <Element p at 0x69db388>] ...: p[0].xpath('./span/text()') #這個(gè)是想要抓取的字符 ...: Out[33]: [u’u6027u8d28’]In [34]: print _[0]性質(zhì)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 久久国产免费 | 免费一级网站 | 午夜精品久久久久久 | 国产丝袜人妖cd露出 | 久久久久久亚洲精品 | 成人做爰www免费看 午夜精品久久久久久久久久久久 | 久国产视频 | 日韩欧美精品在线播放 | 黄色亚洲 | 成人午夜免费福利视频 | 久久精品久久久 | 久热9| 亚洲一区二区三区在线播放 | 国产精品久久久久久久久久久久久久 | 午夜成人免费视频 | av一区二区三区四区 | 成人av一区 | 巨大荫蒂视频欧美另类大 | 一区二区三区国产精品 | 欧美日韩在线精品 | 日韩欧美中文在线 | 欧美成人h版在线观看 | 最近日韩中文字幕 | 国产成人久久av免费高清密臂 | 欧美日韩一区在线 | 亚洲欧美一区二区三区1000 | 成人免费共享视频 | 精品国产一区二区三区久久 | 国产在线精品区 | 偷拍自拍在线观看 | 国产精品无码永久免费888 | 一区二区三区 在线 | 夜夜夜久久 | 久国久产久精永久网页 | 蜜桃一区二区三区 | 亚洲精品久久久久久久不卡四虎 | 亚洲高清在线观看 | 在线观看中文字幕dvd播放 | 国产一区中文字幕 | 久久久久久久国产 | 日韩视频在线一区 |