python爬蟲(chóng)beautifulsoup解析html方法
用BeautifulSoup 解析html和xml字符串
實(shí)例:
#!/usr/bin/python# -*- coding: UTF-8 -*-from bs4 import BeautifulSoupimport re#待分析字符串html_doc = '''<html><head> <title>The Dormouse’s story</title></head><body><p class='title aq'> <b> The Dormouse’s story </b></p><p class='story'>Once upon a time there were three little sisters; and their names were <a rel='external nofollow' id='link1'>Elsie</a>, <a rel='external nofollow' id='link2'>Lacie</a> and <a rel='external nofollow' id='link3'>Tillie</a>; and they lived at the bottom of a well.</p><p class='story'>...</p>'''# html字符串創(chuàng)建BeautifulSoup對(duì)象soup = BeautifulSoup(html_doc, ’html.parser’, from_encoding=’utf-8’)#輸出第一個(gè) title 標(biāo)簽print soup.title#輸出第一個(gè) title 標(biāo)簽的標(biāo)簽名稱(chēng)print soup.title.name#輸出第一個(gè) title 標(biāo)簽的包含內(nèi)容print soup.title.string#輸出第一個(gè) title 標(biāo)簽的父標(biāo)簽的標(biāo)簽名稱(chēng)print soup.title.parent.name#輸出第一個(gè) p 標(biāo)簽print soup.p#輸出第一個(gè) p 標(biāo)簽的 class 屬性?xún)?nèi)容print soup.p[’class’]#輸出第一個(gè) a 標(biāo)簽的 href 屬性?xún)?nèi)容print soup.a[’href’]’’’soup的屬性可以被添加,刪除或修改. 再說(shuō)一次, soup的屬性操作方法與字典一樣’’’#修改第一個(gè) a 標(biāo)簽的href屬性為 http://www.baidu.com/soup.a[’href’] = ’http://www.baidu.com/’#給第一個(gè) a 標(biāo)簽添加 name 屬性soup.a[’name’] = u’百度’#刪除第一個(gè) a 標(biāo)簽的 class 屬性為del soup.a[’class’]##輸出第一個(gè) p 標(biāo)簽的所有子節(jié)點(diǎn)print soup.p.contents#輸出第一個(gè) a 標(biāo)簽print soup.a#輸出所有的 a 標(biāo)簽,以列表形式顯示print soup.find_all(’a’)#輸出第一個(gè) id 屬性等于 link3 的 a 標(biāo)簽print soup.find(id='link3')#獲取所有文字內(nèi)容print(soup.get_text())#輸出第一個(gè) a 標(biāo)簽的所有屬性信息print soup.a.attrsfor link in soup.find_all(’a’): #獲取 link 的 href 屬性?xún)?nèi)容 print(link.get(’href’))#對(duì)soup.p的子節(jié)點(diǎn)進(jìn)行循環(huán)輸出 for child in soup.p.children: print(child)#正則匹配,名字中帶有b的標(biāo)簽for tag in soup.find_all(re.compile('b')): print(tag.name)
爬蟲(chóng)設(shè)計(jì)思路:
詳細(xì)手冊(cè):
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
到此這篇關(guān)于python爬蟲(chóng)beautifulsoup解析html方法 的文章就介紹到這了,更多相關(guān)beautifulsoup解析html內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!
相關(guān)文章:
1. php測(cè)試程序運(yùn)行速度和頁(yè)面執(zhí)行速度的代碼2. ASP中常用的22個(gè)FSO文件操作函數(shù)整理3. 三個(gè)不常見(jiàn)的 HTML5 實(shí)用新特性簡(jiǎn)介4. Warning: require(): open_basedir restriction in effect,目錄配置open_basedir報(bào)錯(cuò)問(wèn)題分析5. ASP調(diào)用WebService轉(zhuǎn)化成JSON數(shù)據(jù),附j(luò)son.min.asp6. SharePoint Server 2019新特性介紹7. React+umi+typeScript創(chuàng)建項(xiàng)目的過(guò)程8. 無(wú)線標(biāo)記語(yǔ)言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁(yè)9. ASP.NET Core 5.0中的Host.CreateDefaultBuilder執(zhí)行過(guò)程解析10. php網(wǎng)絡(luò)安全中命令執(zhí)行漏洞的產(chǎn)生及本質(zhì)探究
