文章詳情頁(yè)

xpath - python怎么用lxml處理

瀏覽：81日期：2022-09-22 09:54:52

問(wèn)題描述

例如：

沒(méi)aa沒(méi)aa沒(méi)aa沒(méi)

就是在p標(biāo)簽里可能會(huì)出現(xiàn)同樣的em標(biāo)簽，而且數(shù)量不定，那我怎么獲取p的內(nèi)容，包括em里的內(nèi)容。例如第二個(gè)p獲取輸出是‘沒(méi)aa沒(méi)aa’

或者獲取到p節(jié)點(diǎn)之后，怎么把里面的內(nèi)容轉(zhuǎn)換為字符串

問(wèn)題解答

回答1：

今天偶然學(xué)到處理這個(gè)問(wèn)題的方法，特意翻出來(lái)這個(gè)問(wèn)題回答。題主你可以看一下xpath的軸，比如你要取得第二個(gè)標(biāo)簽的“沒(méi)aa沒(méi)aa”，實(shí)際是取得它全部后代節(jié)點(diǎn)的文本內(nèi)容，可以使用element_dom.xpath('//p[2]//descendant::text()')來(lái)取得，拿到的結(jié)果是一個(gè)這樣[’沒(méi)’, ’aa’, ’沒(méi)’, ’aa’]的list,然后自己手動(dòng)拼接成字符串就可以了，比如''.join(list)。同理，如果你需要進(jìn)行其他操作，也可以使用類似的方法。

回答2：

換bs4，string和text之間的異同就在這里。

回答3：

lxml.html的.text_content()方法，可以獲取當(dāng)前節(jié)點(diǎn)和所有子節(jié)點(diǎn)的文本內(nèi)容。

Python 編程

上一條：python - 如何爬取豆瓣電影的詳細(xì)信息下一條：python - [Errno 2] No such file or directory: ’我為什么是一個(gè)文件，為什么返回值是這樣的呢？

相關(guān)文章：

1. 視頻文件不能播放，怎么辦？2. node.js - nodejs開(kāi)發(fā)中常用的連接mysql的庫(kù)3. mysql replace 死鎖4. phpstudy pro小皮面板經(jīng)常報(bào)這個(gè)nginx: [emerg] CreateFile【急】5. 老師您的微信號(hào)是多少？6. mysql - 把一個(gè)表中的數(shù)據(jù)count更新到另一個(gè)表里?7. mysql - 分庫(kù)分表、分區(qū)、讀寫(xiě)分離這些都是用在什么場(chǎng)景下，會(huì)帶來(lái)哪些效率或者其他方面的好處8. 請(qǐng)教使用PDO連接MSSQL數(shù)據(jù)庫(kù)插入是亂碼問(wèn)題?9. 雙擊安裝程序，安裝不了10. mysql - 字符串根據(jù)字典替換

排行榜

雙擊安裝程序，安裝不了

1. node.js - npm init無(wú)法一直回車(chē)。到version就卡主不動(dòng)了

2. 解決Android webview設(shè)置cookie和cookie丟失的問(wèn)題

3. javascript - 關(guān)于css絕對(duì)定位在ios瀏覽器被橡皮筋遮擋的問(wèn)題

4. visual-studio - Python OpenCV: 奇怪的自動(dòng)補(bǔ)全問(wèn)題

5. javascript - 移動(dòng)端自適應(yīng)

6. python - 我在使用pip install -r requirements.txt下載時(shí)，為什么部分能下載，部分不能下載

7. docker安裝后出現(xiàn)Cannot connect to the Docker daemon.

8. docker內(nèi)創(chuàng)建jenkins訪問(wèn)另一個(gè)容器下的服務(wù)器問(wèn)題

9. debian - docker依賴的aufs-tools源碼哪里可以找到?。?/a>

10. python - nginx為什么不能反代圖片?

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

xpath - python怎么用lxml處理