文章詳情頁

html - 為什么BeautifulSoup find_all 返回的list都不是按照網(wǎng)頁顯示順序排序的？

瀏覽：128日期：2023-10-13 17:52:01

問題描述

我想爬糗百的段子，顯示作者，和對應(yīng)的段子，先只爬第一面

import requestsfrom bs4 import BeautifulSoup as bspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))soup = bs(r.content,'html.parser')names = []for n in soup.find_all('a',{'href':True,'target':True,'title':True}): names += [n.h2.get_text()]print(names)

print 結(jié)果：

[’威信紅包接龍關(guān)注’, ’ZBZBZBZ’, ’養(yǎng)賊專業(yè)戶’, ’柱流年’, ’大風(fēng)起兮雪飛揚’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓，黑衣格哥買紅糖’, ’九妹妹～’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’哇噻～桃寶’, ’單名一個飯字’, ’ni敢拿命疼我嗎？’, ’許我三日暖’, ’半闕詞曲丶’, ’誰動了我的糧食？’]

html.fromstring xpath 也這樣

from lxml import htmlimport requestspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))tree = html.fromstring(r.content)print(tree.xpath(’//*[@class='article block untagged mb15']/p[1]/a[2]/h2/text()’))

print 結(jié)果：

[’威信紅包接龍關(guān)注’, ’ZBZBZBZ’, ’養(yǎng)賊專業(yè)戶’, ’大風(fēng)起兮雪飛揚’, ’柱流年’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓，黑衣格哥買紅糖’, ’九妹妹～’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’單名一個飯字’, ’ni敢拿命疼我嗎？’, ’許我三日暖’, ’半闕詞曲丶’, ’根@兒’, ’我是你的絕無僅有’]

但網(wǎng)頁的實際顯示順序是:

[’威信紅包接龍關(guān)注’, ’養(yǎng)賊專業(yè)戶’, ’ZBZBZBZ’, ’柱流年’, ’有點胖的妮妮’, ’依然家的麥芽糖’, ’小小&妖精’, ’大風(fēng)起兮雪飛揚’, ’蒼南下山耍流氓，黑衣格哥買紅糖’, ’九妹妹～’, ’亦龍’...]

如何讓返回的list的元素的順序和網(wǎng)頁顯示順序相同？

問題解答

回答1：

應(yīng)該是因為它頁面的內(nèi)容的排序是在變動的。他的排序是根據(jù)評論里面的個“好笑”數(shù)來排的，好笑數(shù)字接近的，順序變化正常，而且有時有新的段子加入這頁。你瀏覽器取得頁面的時間，和爬蟲爬取的時間不一樣，看到的段子順序不一樣很正常。

HTML

上一條：java - 正則表達式如何對字符串取反？下一條：java - 求算法. 在球面上取隨機N個均勻的點(或者間距不小于某距離的點)

相關(guān)文章：

1. javascript - 如何在NW.JS中使用Node自動重啟進程？2. javascript - 為什么會打印兩次啊？3. gulp-ruby-sass編譯出來的文件有錯4. dockerfile - docker-compose啟動lnmp失敗?5. 引入traits后，為什么index得是空的呢？6. python - 為什么寫了換行語句，結(jié)果還是沒有換行？7. angular.js使用$resource服務(wù)把數(shù)據(jù)存入mongodb的問題。8. 各位python爬蟲大牛看過來,這個網(wǎng)站的反爬蟲怎么處理9. mysql - SQL能這樣表示嗎?10. python - django中普通用戶如何利用admin修改自己的信息？

排行榜

					
					引入traits后，為什么index得是空的呢？
dockerfile - docker-compose啟動lnmp失敗?
javascript - 如何在NW.JS中使用Node自動重啟進程？
javascript - 為什么會打印兩次啊？
gulp-ruby-sass編譯出來的文件有錯
valign=top 是啥意思
mysql - SQL能這樣表示嗎?
javascript - 這是什么插件能把能把cli里面的webpack打包信息格式化?
javascript - js如何獲取app保存的TOKEN？
javascript - jQuery post()方法，里面的請求串可以轉(zhuǎn)換為GBK編碼么？可以的話怎樣轉(zhuǎn)換？
java - vue中使用jquery的ajax 調(diào)的本地json數(shù)據(jù)失敗
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

html - 為什么BeautifulSoup find_all 返回的list都不是按照網(wǎng)頁顯示順序排序的？