selenium - 請(qǐng)教一下 Python 爬蟲工具
問題描述
1)我要抓的是 Instagram 某明星的粉絲2)Instagram pc 站使用了大量的 js 渲染3)沒寫過爬蟲,老板明天就要數(shù)據(jù)
我目前使用的是BeautifulSoup, selenium 和phantomjs
代碼 demo 大概是
driver = webdriver.PhantomJS(self.browser)driver.get(self.url)driver.implicitly_wait(3)element = driver.find_element_by_class_name('_s53mj')element.click()html = driver.page_sourcesoup = BeautifulSoup(html)
問題是:1) 我不知道click 有沒有執(zhí)行成功, click 的元素對(duì)不對(duì), driver 好像沒有返回值給我參考2) 即使 click 成功了, 但是他是不是只調(diào)了 js里的 click() 方法,并沒有觸發(fā) target 怎么辦3)我不知道是先渲染page_source, 還是 應(yīng)該先 click, 假設(shè)執(zhí)行成功了 click, 是不是也不會(huì)再 source 里返回了
啊, 謝各位爬蟲大佬了
問題解答
回答1:說的是什么意思?百思不得其解啊。。。
selenium自動(dòng)化,click能模仿用戶點(diǎn)擊,就跟你自己在頁(yè)面上點(diǎn)擊一樣,一切都在虛擬瀏覽器驅(qū)動(dòng)中進(jìn)行。
看你的業(yè)務(wù)邏輯啊。。。比如有些數(shù)據(jù)要點(diǎn)擊后才有,那就先click再獲取源代碼。
相關(guān)文章:
1. mysql - 如何減少使用或者不用LEFT JOIN查詢?2. 視頻文件不能播放,怎么辦?3. mysql - jdbc的問題4. python - 我在使用pip install -r requirements.txt下載時(shí),為什么部分能下載,部分不能下載5. html5 - H5做的手機(jī)分享頁(yè)微信更新后,分享出去不再默認(rèn)顯示第一個(gè)圖 作為縮略圖6. python - 編碼問題求助7. linux - python 抓取公眾號(hào)文章遇到驗(yàn)證問題8. mysql - 分庫(kù)分表、分區(qū)、讀寫分離 這些都是用在什么場(chǎng)景下 ,會(huì)帶來哪些效率或者其他方面的好處9. node.js - nodejs開發(fā)中常用的連接mysql的庫(kù)10. 網(wǎng)頁(yè)爬蟲 - python 爬取網(wǎng)站 并解析非json內(nèi)容
