av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術文章
文章詳情頁

python 如何獲取頁面所有a標簽下href的值

瀏覽:13日期:2022-06-20 14:31:38
看代碼吧~

# -*- coding:utf-8 -*-#python 2.7#http://tieba.baidu.com/p/2460150866#標簽操作 from bs4 import BeautifulSoupimport urllib.requestimport re #如果是網址,可以用這個辦法來讀取網頁#html_doc = 'http://tieba.baidu.com/p/2460150866'#req = urllib.request.Request(html_doc) #webpage = urllib.request.urlopen(req) #html = webpage.read() html='''<html><head><title>The Dormouse’s story</title></head><body><p name='dromouse'><b>The Dormouse’s story</b></p><p class='story'>Once upon a time there were three little sisters; and their names were<a rel='external nofollow' rel='external nofollow' id='xiaodeng'><!-- Elsie --></a>,<a rel='external nofollow' rel='external nofollow' id='link2'>Lacie</a> and<a rel='external nofollow' id='link3'>Tillie</a>;<a rel='external nofollow' rel='external nofollow' id='xiaodeng'>Lacie</a>and they lived at the bottom of a well.</p><p class='story'>...</p>'''soup = BeautifulSoup(html, ’html.parser’) #文檔對象 #查找a標簽,只會查找出一個a標簽#print(soup.a)#<a rel='external nofollow' rel='external nofollow' id='xiaodeng'><!-- Elsie --></a> for k in soup.find_all(’a’): print(k) print(k[’class’])#查a標簽的class屬性 print(k[’id’])#查a標簽的id值 print(k[’href’])#查a標簽的href值 print(k.string)#查a標簽的string

如果,標簽<a>中含有其他標簽,比如<em>..</em>,此時要提取<a>中的數據,需要用k.get_text()

soup = BeautifulSoup(html, ’html.parser’) #文檔對象#查找a標簽,只會查找出一個a標簽for k in soup.find_all(’a’): print(k) print(k[’class’])#查a標簽的class屬性 print(k[’id’])#查a標簽的id值 print(k[’href’])#查a標簽的href值 print(k.string)#查a標簽的string

如果,標簽<a>中含有其他標簽,比如<em>..</em>,此時要提取<a>中的數據,需要用k.get_text()

通常我們使用下面這種模式也是能夠處理的,下面的方法使用了get()。

html = urlopen(url) soup = BeautifulSoup(html, ’html.parser’) t1 = soup.find_all(’a’) print t1 href_list = [] for t2 in t1: t3 = t2.get(’href’) href_list.append(t3)

補充:python爬蟲獲取任意頁面的標簽和屬性(包括獲取a標簽的href屬性)

看代碼吧~

# coding=utf-8 from bs4 import BeautifulSoup import requests # 定義一個獲取url頁面下label標簽的attr屬性的函數 def getHtml(url, label, attr): response = requests.get(url) response.encoding = ’utf-8’ html = response.text soup = BeautifulSoup(html, ’html.parser’); for target in soup.find_all(label): try: value = target.get(attr) except: value = ’’ if value: print(value) url = ’https://baidu.com/’ label = ’a’ attr = ’href’ getHtml(url, label, attr)

python 如何獲取頁面所有a標簽下href的值

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持好吧啦網。如有錯誤或未考慮完全的地方,望不吝賜教。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 伊大人久久 | 国产91在线观看 | 国产精品中文字幕在线 | 日本一区二区高清视频 | 精精国产xxxx视频在线播放7 | 国产日韩精品视频 | 精品九九在线 | 91av在线免费播放 | 999热视频| 成人激情视频在线播放 | 日韩影院一区 | 亚洲精品久久久久久宅男 | 中文字幕1区2区3区 亚洲国产成人精品女人久久久 | 国产亚洲精品久久久久久牛牛 | 女人毛片a毛片久久人人 | 国产一区二区久久 | 免费在线观看成人 | 亚洲在线 | 成人精品一区二区三区中文字幕 | 日韩久久精品电影 | 91成人午夜性a一级毛片 | 国产黄色在线观看 | 日韩一区二区三区av | 国产yw851.c免费观看网站 | 成人高潮片免费视频欧美 | 99爱视频| 久久美女网| 中文字幕在线观看一区 | 国产91久久精品一区二区 | 粉嫩一区二区三区性色av | 国产成人一区二区三区精 | 国产成人精品一区二区三区网站观看 | 自拍偷拍av | 欧美精品综合在线 | 久久精品亚洲 | 天天色天天色 | 国产精品亚洲综合 | 成人国内精品久久久久一区 | 久久99国产精品 | 91在线网站 | 不卡视频一区二区三区 |