av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術(shù)文章
文章詳情頁

python - 請教這個(gè)頁面中的這兩個(gè)信息能否不用無頭瀏覽器爬取到?

瀏覽:112日期:2022-09-22 16:46:47

問題描述

在爬取'http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm'這個(gè)頁面的時(shí)候, 發(fā)現(xiàn)'擅長'和'執(zhí)業(yè)經(jīng)歷'這兩個(gè)信息通過beautifulsoup是取不到的, 我選取這兩個(gè)信息的代碼如下:

soup.select(’#full_DoctorSpecialize’).get_text(strip=True)soup.select(’#full’).get_text(strip=True)

查詢頁面發(fā)現(xiàn)這兩個(gè)信息好像是通過JS查詢的結(jié)果, 除了把網(wǎng)頁全部正則表達(dá)式匹配的方法, 請教各位: 1, 這兩個(gè)信息能否直接取到? 2, 除了類似'Selenium'這樣的工具, 是否還有其他方式能夠取到這兩個(gè)信息?3, 能否通過分析查詢接口的方式解決?

謝謝

問題解答

回答1:

可能這個(gè)頁面,你要抓的這個(gè)數(shù)據(jù),是頁面加載后,使用js渲染出來的。也就是說,這個(gè)#full_DoctorSpecialize里面的數(shù)據(jù)是ajax,從服務(wù)器上拿回來的。具體要如何拿這樣的數(shù)據(jù),你可以百度下 phantomjs ,你一定會 有收獲 的。

回答2:

這2個(gè)信息可以直接獲取,只是信息包含在JS塊中BigPipe.onPageletArrive({這個(gè)里面}) , 可以通過正則表達(dá)式獲取。這個(gè)里面是一段JSON格式的字符串。匹配之后轉(zhuǎn)換為json還是很容易處理的。想要通過查詢接口獲取的話,應(yīng)該是可以的,不過得分析JS代碼,這個(gè)太麻煩,可以通過抓包工具來抓它的http請求。然后看看是那個(gè)請求返回的數(shù)據(jù)。相比較而言還是寫正則匹配比較快。

回答3:

這個(gè)就像樓上說的是js渲染的,內(nèi)容在js代碼里面,可以正則匹配js代碼里面的元素,得到你想要的信息

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 三上悠亚激情av一区二区三区 | 亚洲国产日韩欧美 | 欧美一区二区三区在线视频 | 日本精品视频在线观看 | 国产黄色精品视频 | 亚洲一区在线观看视频 | 日本黄色三级视频 | 免费成人深夜夜国外 | 91精品久久久久久 | 日韩精品网 | 欧美激情小视频 | 黄a视频 | 成年人国产 | 欧美日韩中文字幕在线观看 | 亚洲欧美日韩另类 | 欧美爱爱视频 | 91亚洲精品乱码久久久久久蜜桃 | 国内精品视频在线观看 | 色涩av| 欧美午夜精品 | 日韩视频一区二区 | 亚洲h视频| 最新日韩av | 天天干天天看 | 日本亚洲天堂 | 国产一区二区三区在线观看视频 | 日日夜夜天天操 | 亚洲成人欧美 | 超碰一区二区 | 在线国产小视频 | 久久国产一区二区三区 | 国产精品福利一区 | 手机看片福利永久 | 8x8ⅹ国产精品一区二区 | 国产一级片网站 | 99视频+国产日韩欧美 | 亚洲精品久久久久久久久久久 | 九色网址 | 玖玖在线视频 | 精品国产一区二区三区四区 | 中文字幕第一页在线 |