av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Python爬蟲之必備chardet庫(kù)

瀏覽:4日期:2022-06-20 16:24:43
一、chardet庫(kù)的安裝與介紹

玩兒過爬蟲的朋友應(yīng)該知道,在爬取不同的網(wǎng)頁(yè)時(shí),返回結(jié)果會(huì)出現(xiàn)亂碼的情況。比如,在爬取某個(gè)中文網(wǎng)頁(yè)的時(shí)候,有的頁(yè)面使用GBK/GB2312,有的使用UTF8,如果你需要去爬一些頁(yè)面,知道網(wǎng)頁(yè)編碼很重要的。

雖然HTML頁(yè)面有charset標(biāo)簽,但是有些時(shí)候是不對(duì)的,那么chardet就能幫我們大忙了。使用 chardet 可以很方便的實(shí)現(xiàn)字符串/文件的編碼檢測(cè)。

如果你安裝過Anaconda,那么可以直接使用chardet庫(kù)。如果你只是安裝了Python的話,就需要使用下面幾行代碼,完成chardet庫(kù)的安裝。

pip install chardet

接著,使用下面這行代碼,導(dǎo)入chardet庫(kù)。

import chardet二、chardet庫(kù)的使用

這個(gè)小節(jié),我們分3部分講解。

2.1 chardet.detect()函數(shù)

detect()函數(shù)接受一個(gè)參數(shù),一個(gè)非unicode字符串。它返回一個(gè)字典,其中包含自動(dòng)檢測(cè)到的字符編碼和從0到1的可信度級(jí)別。

encoding:表示字符編碼方式。 confidence:表示可信度。 language:語(yǔ)言。

光看這個(gè)解釋,大多數(shù)朋友可能看不懂,下面我們就用例子來講述這個(gè)函數(shù)。

2.2 使用該函數(shù)分別檢測(cè)gbk、utf-8和日語(yǔ)

檢測(cè)gbk編碼的中文:

str1 = ’大家好,我是黃同學(xué)’.encode(’gbk’)chardet.detect(str1)chardet.detect(str1)['encoding']

結(jié)果如下:

Python爬蟲之必備chardet庫(kù)

檢測(cè)的編碼是GB2312,注意到GBK是GB2312的父集,兩者是同一種編碼,檢測(cè)正確的概率是99%,language字段指出的語(yǔ)言是’Chinese’。

檢測(cè)utf-8編碼的中文:

str2 = ’我有一個(gè)夢(mèng)想’.encode(’utf-8’)chardet.detect(str2)chardet.detect(str2)['encoding']

結(jié)果如下:

Python爬蟲之必備chardet庫(kù)

檢測(cè)一段日文:

str3 = ’ありがとう’.encode(’euc-jp’)chardet.detect(str3)chardet.detect(str3)

結(jié)果如下:

Python爬蟲之必備chardet庫(kù)

2.3 如何在“爬蟲”中使用chardet庫(kù)呢?

我們以百度網(wǎng)頁(yè)為例子,進(jìn)行講述。

Python爬蟲之必備chardet庫(kù)

這個(gè)網(wǎng)頁(yè)的源代碼,使用的是什么編碼呢?我們看看源代碼:

Python爬蟲之必備chardet庫(kù)

從圖中可以看到,是utf-8字符編碼。

如果不使用chardet庫(kù),獲取網(wǎng)頁(yè)源代碼的時(shí)候,怎么指定字符編碼呢?

import chardetimport requestsheaders = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’}response = requests.get(’https://www.baidu.com’,headers=headers)response.encoding = 'utf-8'response.text

結(jié)果如下:

Python爬蟲之必備chardet庫(kù)

你會(huì)發(fā)現(xiàn):正確指定編碼后,沒有亂碼。如果你將編碼改為gbk,再看看結(jié)果。此時(shí)已經(jīng)亂碼。

Python爬蟲之必備chardet庫(kù)

如果使用chardet庫(kù),獲取網(wǎng)頁(yè)源代碼的時(shí)候,可以輕松指定字符編碼!

import chardetimport requestsheaders = {’User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’}response = requests.get(’https://www.baidu.com’,headers=headers)# 注意下面這行代碼,是怎么寫的?response.encoding = chardet.detect(response.content)[’encoding’]response.text

結(jié)果如下:

Python爬蟲之必備chardet庫(kù)

編碼不用我們自己查找,也不用猜,直接交給chardet庫(kù)去猜測(cè),正確率還高。

到此這篇關(guān)于Python爬蟲之必備chardet庫(kù)的文章就介紹到這了,更多相關(guān)Python chardet庫(kù)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 色天使在线视频 | 日本一级黄色 | 综合五月 | 黄色大片免费观看 | 黄色一级大片在线免费看国产一 | 成人不卡| 婷婷综合视频 | 日韩一区二区三区在线 | 免费在线黄色网址 | 亚洲视频二区 | 久久国产精品一区二区三区 | 在线观看日韩欧美 | 在线观看视频国产 | 亚洲午夜精品一区二区三区 | 欧美亚洲一区二区三区 | 欧美日韩精品久久久免费观看 | 视频一区中文字幕 | 国产在线一 | 深夜福利久久 | 一区二区久久久 | 69免费视频 | 中文字幕在线一区二区三区 | 亚洲天堂影院 | 久久这里只有精品6 | 日韩av在线网址 | 亚洲成人av一区二区 | 亚洲小视频在线观看 | 黄色一级片免费 | 日韩一级黄色片 | 久久国产亚洲 | 欧美一级淫片免费视频魅影视频 | 三级在线视频 | 亚洲精品视频在线观看免费 | 少妇特黄a一区二区三区 | 伊人久久av| av在线免费网站 | 久久久久久久国产精品 | 欧美日本在线 | 欧美黄色一级 | 中文字幕欧美激情 | 国产成人+综合亚洲+天堂 |