html - 為什么BeautifulSoup find_all 返回的list都不是按照網(wǎng)頁顯示順序排序的?
問題描述
我想爬糗百的段子,顯示作者,和對應(yīng)的段子,先只爬第一面
import requestsfrom bs4 import BeautifulSoup as bspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))soup = bs(r.content,'html.parser')names = []for n in soup.find_all('a',{'href':True,'target':True,'title':True}): names += [n.h2.get_text()]print(names)
print 結(jié)果:
[’威信紅包接龍關(guān)注’, ’ZBZBZBZ’, ’養(yǎng)賊專業(yè)戶’, ’柱流年’, ’大風起兮雪飛揚’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓,黑衣格哥買紅糖’, ’九妹妹~’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’哇噻~桃寶’, ’單名一個飯字’, ’ni敢拿命疼我嗎?’, ’許我三日暖’, ’半闕詞曲丶’, ’誰動了我的糧食?’]
html.fromstring xpath 也這樣
from lxml import htmlimport requestspage = 1url = 'http://www.qiushibaike.com/hot/page/'r = requests.get(url+str(page))tree = html.fromstring(r.content)print(tree.xpath(’//*[@class='article block untagged mb15']/p[1]/a[2]/h2/text()’))
print 結(jié)果:
[’威信紅包接龍關(guān)注’, ’ZBZBZBZ’, ’養(yǎng)賊專業(yè)戶’, ’大風起兮雪飛揚’, ’柱流年’, ’依然家的麥芽糖’, ’小小&妖精’, ’蒼南下山耍流氓,黑衣格哥買紅糖’, ’九妹妹~’, ’親愛de橄欖綠’, ’有點胖的妮妮’, ’污奇奇’, ’沒辦法就是這么帥’, ’亦龍’, ’單名一個飯字’, ’ni敢拿命疼我嗎?’, ’許我三日暖’, ’半闕詞曲丶’, ’根@兒’, ’我是你的絕無僅有’]
但網(wǎng)頁的實際顯示順序是:
[’威信紅包接龍關(guān)注’, ’養(yǎng)賊專業(yè)戶’, ’ZBZBZBZ’, ’柱流年’, ’有點胖的妮妮’, ’依然家的麥芽糖’, ’小小&妖精’, ’大風起兮雪飛揚’, ’蒼南下山耍流氓,黑衣格哥買紅糖’, ’九妹妹~’, ’亦龍’...]
如何讓返回的list的元素的順序和網(wǎng)頁顯示順序相同?
問題解答
回答1:應(yīng)該是因為它頁面的內(nèi)容的排序是在變動的。他的排序是根據(jù)評論里面的個“好笑”數(shù)來排的,好笑 數(shù)字接近的,順序變化正常,而且有時有新的段子加入這頁。你瀏覽器取得頁面的時間,和爬蟲爬取的時間不一樣,看到的段子順序不一樣很正常。
相關(guān)文章:
1. mysql - 分庫分表、分區(qū)、讀寫分離 這些都是用在什么場景下 ,會帶來哪些效率或者其他方面的好處2. javascript - ios返回不執(zhí)行js怎么解決?3. python - 爬蟲模擬登錄后,爬取csdn后臺文章列表遇到的問題4. 視頻文件不能播放,怎么辦?5. python bottle跑起來以后,定時執(zhí)行的任務(wù)為什么每次都重復(fù)(多)執(zhí)行一次?6. html5 - HTML代碼中的文字亂碼是怎么回事?7. javascript - 求幫助 , ATOM不顯示界面!!!!8. mysql 查詢身份證號字段值有效的數(shù)據(jù)9. javascript - angular使從elastichearch中取出的文本高亮顯示,如圖所示10. javascript - 為什么在谷歌控制臺 輸出1的時候,輸出的1立馬就不見了
