av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術文章
文章詳情頁

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

瀏覽:133日期:2022-07-15 16:32:54

問題描述

我想把房屋概況分別抓出來并分別作為獨立的列存儲進字典里,但是行內元素沒有辦法直接用for循環摳出來。這是我的代碼:

soup.select(’.house-info li’)[1].text.strip()

這是網頁html代碼:

<li><span class='info-tit'>房屋概況:</span>住宅<span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問題解答

回答1:

其實還是很有簡單的,你看這個還是有規律的,規律在于有分隔符|,我寫了個DEMO

something = ’’’<li><span class='info-tit'>房屋概況:</span>住宅 <span class='splitline'>|</span>1室1廳1衛<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過get_text()得到內在所有內容,然后去除空格。后面你就用split進行分割吧,后面的不寫了。如果有問題再交流。

回答2:我感覺這個html代碼寫錯了呢,標簽的內容文本在標簽外面

Python爬蟲如何爬取span和span中間的內容并分別存入字典里?

正確的標簽內容就兩個:

房屋概況:

46m2

回答3:

innerText

回答4:

你這種情況,我覺得用 for 循環加上正則表達式是最方便的,如果所有模版都是這樣固定的話

回答5:

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 亚洲色欲色欲www在线观看 | 一区二区三区日韩 | 国产成人黄色 | 亚洲网在线 | 在线播放国产精品 | 久久黄色大片 | 成人片在线播放 | 日韩欧美高清 | 中文字幕黄色片 | 高跟肉丝丝袜呻吟啪啪网站av | 91免费在线视频 | 中文有码在线 | 九月色婷婷 | 欧美日韩国产一区 | 中文字幕精品一区久久久久 | 一区二区国产精品 | 日韩精品网站 | 一区二区三区四区在线播放 | 国产欧美激情 | 懂色av色吟av夜夜嗨 | 一级大片免费看 | 欧美九九九 | 91亚洲精品乱码久久久久久蜜桃 | 欧美久久一区二区 | 国产区在线 | 免费黄色网页 | 国产精品美女在线观看 | 欧美片网站yy | a级一级片| 久久香蕉网 | 免费毛片在线播放免费 | 欧美激情亚洲 | 少妇搡bbbb搡bbb搡毛茸茸 | 中文文字幕文字幕高清 | 色综合久久综合 | 亚洲欧美日韩一区二区三区四区 | 日韩在线专区 | 国产午夜精品久久久久久久 | 精品久久久久久久久久 | 亚洲性天堂| 亚洲精品www久久久久久广东 |