文章詳情頁(yè)

python - 我寫的Xpath 為什么爬取不到內(nèi)容

瀏覽：60日期：2022-08-13 13:30:26

問(wèn)題描述

-- coding:utf-8 --

import lxml,requests,sysfrom bs4 import BeautifulSoupfrom lxml import etree

reload(sys)sys.setdefaultencoding('utf-8')

def main():

url = ’https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E6%9A%B4%E8%B5%B0%E6%BC%AB%E7%94%BB&pn=0’req = requests.get(url).content

# soup = BeautifulSoup(req.content,’lxml’) # imgs = soup.find_all(’img’)

content = etree.HTML(req)paths = content.xpath(’//*[@id='imgid']/ul/li[1]/a/img/text()’)# for img in imgs:## print img

# for img in imgs :

print paths

main()

問(wèn)題解答

回答1：

在寫爬蟲的時(shí)候，使用xpath一定要確認(rèn)一下網(wǎng)頁(yè)的源代碼中是否有數(shù)據(jù)，如果沒(méi)有，說(shuō)明是異步加載的

1. 瀏覽器輸入這個(gè)連接即可看源代碼，ctrl+f 查找imgid所在的位置

view-source:https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E6%9A%B4%E8%B5%B0%E6%BC%AB%E7%94%BB&pn=02. 發(fā)現(xiàn)

并沒(méi)有找到下面的圖片列表，我們可以判定圖片是js加載的

3. 尋找

F12看network(刷新才能看到)，并沒(méi)有發(fā)現(xiàn)異步請(qǐng)求加載的圖片信息，于是我猜測(cè)數(shù)據(jù)應(yīng)該就在html里，不過(guò)是放在js里，在加載圖片的時(shí)候處理了

同樣是上面的查看源代碼的方式，查找objURL這個(gè)參數(shù)發(fā)現(xiàn)了真實(shí)的url

//很多，集中在html下半部分http://img3.duitang.com/uploads/item/201608/06/20160806110540_MAcru.jpeg解決

剩下的就交給你啦～去想辦法解析出下面部分的真實(shí)url吧!

Python 編程

上一條：python - 如何爬取登錄后的socket連接下一條：如何使用python提取json中指定字段的數(shù)據(jù)?

相關(guān)文章：

1. html - vue項(xiàng)目中用到了elementUI問(wèn)題2. mysql scripts提示 /usr/bin/perl: bad interpreter3. showpassword里的this 是什么意思？代表哪個(gè)元素4. css3 - border-bottom 的長(zhǎng)度可否超過(guò)盒子的寬度呢？實(shí)現(xiàn)如下圖效果。（我的書下面的線）5. javascript - windows下如何使用babel，遇到了困惑6. 對(duì)mysql某個(gè)字段監(jiān)控的功能7. css3 - css怎么實(shí)現(xiàn)圖片環(huán)繞的效果8. javascript - 原生canvas中如何獲取到觸摸事件的canvas內(nèi)坐標(biāo)?9. JavaScript事件10. mysql優(yōu)化 - mysql EXPLAIN之后怎么看結(jié)果進(jìn)行優(yōu)化？

排行榜

					
					android - 用textview顯示html時(shí)如何寫imagegetter獲取網(wǎng)絡(luò)圖片
docker gitlab 如何git clone？
debian - docker依賴的aufs-tools源碼哪里可以找到啊？
golang - 用IDE看docker源碼時(shí)的小問(wèn)題
我在centos容器里安裝docker，也就是在容器里安裝容器，報(bào)錯(cuò)了？
mysql優(yōu)化 - mysql EXPLAIN之后怎么看結(jié)果進(jìn)行優(yōu)化 ？
css3 - border-bottom  的長(zhǎng)度可否超過(guò)盒子的寬度呢？實(shí)現(xiàn)如下圖效果。（我的書下面的線）
javascript - windows下如何使用babel，遇到了困惑
showpassword里的this 是什么意思？代表哪個(gè)元素
mysql scripts提示 /usr/bin/perl: bad interpreter
html - vue項(xiàng)目中用到了elementUI問(wèn)題
				

熱門標(biāo)簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 我寫的Xpath 為什么爬取不到內(nèi)容