文章詳情頁(yè)

Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)

瀏覽：129日期：2022-07-01 16:20:17

1.爬蟲(chóng)是什么

所謂爬蟲(chóng)，就是按照一定的規(guī)則，自動(dòng)的從網(wǎng)絡(luò)中抓取信息的程序或者腳本。萬(wàn)維網(wǎng)就像一個(gè)巨大的蜘蛛網(wǎng)，我們的爬蟲(chóng)就是上面的一個(gè)蜘蛛，不斷的去抓取我們需要的信息。

2.爬蟲(chóng)三要素抓取分析存儲(chǔ)3.爬蟲(chóng)的過(guò)程分析

當(dāng)人類(lèi)去訪問(wèn)一個(gè)網(wǎng)頁(yè)時(shí)，是如何進(jìn)行的？

①打開(kāi)瀏覽器，輸入要訪問(wèn)的網(wǎng)址，發(fā)起請(qǐng)求。

②等待服務(wù)器返回?cái)?shù)據(jù)，通過(guò)瀏覽器加載網(wǎng)頁(yè)。

③從網(wǎng)頁(yè)中找到自己需要的數(shù)據(jù)（文本、圖片、文件等等）。

④保存自己需要的數(shù)據(jù)。

對(duì)于爬蟲(chóng)，也是類(lèi)似的。它模仿人類(lèi)請(qǐng)求網(wǎng)頁(yè)的過(guò)程，但是又稍有不同。

首先，對(duì)應(yīng)于上面的①和②步驟，我們要利用python實(shí)現(xiàn)請(qǐng)求一個(gè)網(wǎng)頁(yè)的功能。

其次，對(duì)應(yīng)于上面的③步驟，我們要利用python實(shí)現(xiàn)解析請(qǐng)求到的網(wǎng)頁(yè)的功能。

最后，對(duì)于上面的④步驟，我們要利用python實(shí)現(xiàn)保存數(shù)據(jù)的功能。

因?yàn)槭侵v一個(gè)簡(jiǎn)單的爬蟲(chóng)嘛，所以一些其他的復(fù)雜操作這里就不說(shuō)了。下面，針對(duì)上面幾個(gè)功能，逐一進(jìn)行分析。

4.如何用python請(qǐng)求一個(gè)網(wǎng)頁(yè)

作為一門(mén)擁有豐富類(lèi)庫(kù)的編程語(yǔ)言，利用python請(qǐng)求網(wǎng)頁(yè)完全不在話下。這里推薦一個(gè)非常好用的類(lèi)庫(kù)urllib.request。

4.1.抓取網(wǎng)頁(yè)

urllib庫(kù)使用

import urllib.request response = urllib.request.urlopen(’https://laoniu.blog.csdn.net/’)print(response.read().decode(’utf-8’))

這樣就可以抓取csdn我的主頁(yè)的html文檔

我們使用爬蟲(chóng)就是需要在網(wǎng)頁(yè)中提取我們需要的數(shù)據(jù)，接下來(lái)我們來(lái)學(xué)習(xí)抓取一下百度搜索頁(yè)的熱榜數(shù)據(jù)

Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)

4.2.如何解析網(wǎng)頁(yè)呢

使用lxml庫(kù)

lxml 是一種使用 Python 編寫(xiě)的庫(kù)，可以迅速、靈活地處理 XML 和 HTML。

它支持 XML Path Language (XPath) 和 Extensible Stylesheet Language Transformation (XSLT)，并且實(shí)現(xiàn)了常見(jiàn)的 ElementTree API。

安裝

windows下安裝

#pip方式安裝pip3 install lxml #wheel方式安裝 #下載對(duì)應(yīng)系統(tǒng)版本的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxmlpip3 install lxml-4.2.1-cp36-cp36m-win_amd64.whl

linux下安裝

yum install -y epel-release libxslt-devel libxml2-devel openssl-devel pip3 install lxml

環(huán)境/版本一覽：

開(kāi)發(fā)工具：PyCharm 2020.2.3 python：3.8.54.3.編寫(xiě)代碼

到這里我們可以順利獲取百度的搜索頁(yè)面html文檔

我門(mén)需要看一下熱搜排行榜的標(biāo)簽元素在哪里

Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)

找到第一條右鍵復(fù)制 XPath (后邊說(shuō)XPath是什么)

Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)

我們需要了解并使用XPath，XPath即為XML路徑語(yǔ)言（XML Path Language），它是一種用來(lái)確定XML文檔中某部分位置的語(yǔ)言。

復(fù)制的內(nèi)容結(jié)果是： //*[@id='con-ar']/div[2]/div/div/table/tbody[1]/tr[1]

這xPath字符串表示現(xiàn)在在html定位的位置就是熱點(diǎn)新聞第一行內(nèi)容

5.XPath常用規(guī)則表達(dá)式描述 nodename 選取此節(jié)點(diǎn)的所有子節(jié)點(diǎn) / 從當(dāng)前節(jié)點(diǎn)選取直接子節(jié)點(diǎn) // 從當(dāng)前節(jié)點(diǎn)選取子孫節(jié)點(diǎn) . 選取當(dāng)前節(jié)點(diǎn) .. 選取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn) @ 選取屬性 * 通配符，選擇所有元素節(jié)點(diǎn)與元素名 @* 選取所有屬性 [@attrib] 選取具有給定屬性的所有元素 [@attrib=’value’] 選取給定屬性具有給定值的所有元素 [tag] 選取所有具有指定元素的直接子節(jié)點(diǎn) [tag=’text’] 選取所有具有指定元素并且文本內(nèi)容是text節(jié)點(diǎn) 6.繼續(xù)分析

那么我們要獲取所有的熱點(diǎn)新聞該怎么寫(xiě)呢

繼續(xù)看網(wǎng)頁(yè)

Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)

可以看到所有的熱榜分別在三個(gè)<tbody>之下

修改一下剛才復(fù)制的XPath

//*[@id='con-ar']/div[2]/div/div/table/tbody[1]/tr[1] 改為 //*[@id='con-ar']/div[2]/div/div/table/tbody/tr

這樣X(jué)Path就會(huì)定位到這三個(gè)tbody下的所有tr元素內(nèi)容

我們繼續(xù)看一下tr是不是我們想要的內(nèi)容，展開(kāi)一個(gè)tr看看

Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)

淦～還有一堆,,

這該怎么辦。我們需要拿到數(shù)據(jù)是【標(biāo)題】【訪問(wèn)鏈接】【熱度】，現(xiàn)在手里已經(jīng)拿到的是所有的tr元素

緊接著從tr下手直接拿到下面所有<a>標(biāo)簽的標(biāo)題與超鏈接

標(biāo)題的XPath: */a/@title 超鏈接的XPath: */a/@href

*表示匹配tr下的所有元素 /a是在*找到第一個(gè)a標(biāo)簽 @是屬性選擇器 title和href就是要選擇的素屬性了

還剩下個(gè)熱度，let‘s me 繼續(xù)操作，直接選擇tr下的第二個(gè)td XPath: td[2]

分析完畢，把完整的代碼貼出來(lái)

import urllib.requestfrom lxml import etree # 獲取百度熱榜 url = 'https://www.baidu.com/s?ie=UTF-8&wd=1'# 我們?cè)谡?qǐng)求頭加入U(xiǎn)ser-Agent參數(shù)，這樣可以讓服務(wù)端認(rèn)為此次請(qǐng)求是用戶(hù)通過(guò)瀏覽器發(fā)起的正常請(qǐng)求，防止被識(shí)別為爬蟲(chóng)程序請(qǐng)求導(dǎo)致直接拒絕訪問(wèn)req = urllib.request.Request(url=url, headers={ ’User-Agent’: ’User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36’ })html_resp = urllib.request.urlopen(req).read().decode('utf-8')html = etree.HTML(html_resp)#初始化生成一個(gè)XPath解析對(duì)象_list = html.xpath('//*[@id=’con-ar’]/div[2]/div/div/table/tbody/tr')print(f'article count : {len(_list)}') for tr in _list: title = tr.xpath('*/a/@title')[0] href = tr.xpath('*/a/@href')[0] hot = tr.xpath('string(td[2])').strip() print(f'{hot}t{title}thttps://www.baidu.com{href}')

點(diǎn)擊運(yùn)行，程序啪就跑起來(lái)了，很快啊，數(shù)據(jù)全都過(guò)來(lái)了，我全都接住了，我笑了一下。

到此就完成了lxml xpath的基本使用，更詳細(xì)的xpath教程請(qǐng)看：https://www.w3school.com.cn/xpath/index.asp

爬蟲(chóng)三要素，抓取數(shù)據(jù)完成了，剩余的分析與存儲(chǔ)就先不說(shuō)了

總結(jié)

到此這篇關(guān)于Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)的文章就介紹到這了,更多相關(guān)Python爬蟲(chóng)入門(mén)之lxml庫(kù)內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：python文件路徑操作方法總結(jié)下一條：Python修改DBF文件指定列

相關(guān)文章：

1. 完美解決vue 中多個(gè)echarts圖表自適應(yīng)的問(wèn)題2. SpringBoot+TestNG單元測(cè)試的實(shí)現(xiàn)3. Java GZip 基于內(nèi)存實(shí)現(xiàn)壓縮和解壓的方法4. Springboot 全局日期格式化處理的實(shí)現(xiàn)5. idea配置jdk的操作方法6. python 浮點(diǎn)數(shù)四舍五入需要注意的地方7. Docker容器如何更新打包并上傳到阿里云8. VMware中如何安裝Ubuntu9. IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法10. JAMon(Java Application Monitor)備忘記

排行榜

					
					Docker容器如何更新打包并上傳到阿里云
IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法
VMware中如何安裝Ubuntu
idea配置jdk的操作方法
JAMon(Java Application Monitor)備忘記
Java GZip 基于內(nèi)存實(shí)現(xiàn)壓縮和解壓的方法
python 浮點(diǎn)數(shù)四舍五入需要注意的地方
完美解決vue 中多個(gè)echarts圖表自適應(yīng)的問(wèn)題
Springboot 全局日期格式化處理的實(shí)現(xiàn)
SpringBoot+TestNG單元測(cè)試的實(shí)現(xiàn)
golang:json 反序列化的[]和nil操作
				

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

Python爬蟲(chóng)新手入門(mén)之初學(xué)lxml庫(kù)