文章詳情頁

python 爬蟲基本使用——統計杭電oj題目正確率并排序

瀏覽：2日期：2022-07-07 10:13:48

python爬蟲主要用兩個庫：Urllib和BeautifulSoup4。一個用來爬取網頁，一個用來解析網頁。

Urllib是Python內置的HTTP請求庫，它包含四個模塊：

1、request，最基本的 HTTP 請求模塊，用來模擬發送請求，就像在瀏覽器里輸入網址然后敲擊回車一樣，只需要給庫方法傳入 URL 與額外的參數，就可以模擬這個過程。2、error ，異常處理模塊，如果出現請求錯誤，我們可以捕獲這些異常，然后進行重試或其他操作保證程序不會意外終止。3、parse ，工具模塊，提供了許多 URL 處理方法，比如拆分、解析、合并等。4、robotparser，主要用于識別網站的 robots.txt 文件，判斷網站是否可以爬取，用的較少。

這里只用到了最常用的request。

BeautifulSoup4從bs4包中導出，這里主要用的就是它的解析功能。

代碼如下，注釋寫得很清楚了：

#杭電OJ題目AC率排序import urllib.request as urfrom bs4 import BeautifulSoup dic = {} #存：'題號：題名 AC 提交次數正確率'for t in range(1,59,1):#1~58頁都爬一遍 print(t) url = ’http://acm.hdu.edu.cn/listproblem.php?vol=’+str(t) #存網址 bs = BeautifulSoup(ur.urlopen(url).read(),'html.parser')#獲取網址的html并轉換為可以python可以使用的結構 ql0 = str(bs.body.table.contents[11].td.table.contents[1])#網頁的DOM解析后可以直接通過'.'來尋找子元素，找到題目的列表元素后，將列表中所有題目轉換成字符串。（可以輸出看看） ql = ql0[30:-10].split(';') #字符串中的題目以';'分隔，將它們分開，并存到列表中 for i in ql: #以下就是格式化處理每個題目，然后存到字典中 info1 = i.split(’,'’,1) num = info1[0].split(’,’)[1] info2 = info1[1].split(’',’,1) name = info2[0] right,submit = info2[1].split(’,’,1) submit = submit[:-1] dic[num] = [name,int(right),int(submit),int(right)/int(submit)]dic = sorted(dic.items(),key = lambda x: x[1][3]) #每頁題目都存入字典后，把字典中的題目通過正確率進行排序，傳出列表with open(’Statistics.txt’,’w’,encoding = ’utf-8’) as f:#把統計排序好的題目保存到txt中 for i in dic: f.write(str(i)+’n’) print('Success！')

以上就是python 爬蟲基本使用——統計杭電oj題目正確率并排序的詳細內容，更多關于python 爬蟲的資料請關注好吧啦網其它相關文章！

Python 編程

上一條：多個版本的python共存時使用pip的正確做法下一條：使用python-cv2實現視頻的分解與合成的示例代碼

相關文章：

1. Python使用jupyter notebook查看ipynb文件過程解析2. php測試程序運行速度和頁面執行速度的代碼3. php網絡安全中命令執行漏洞的產生及本質探究4. python利用os模塊編寫文件復制功能——copy()函數用法5. 無線標記語言(WML)基礎之WMLScript 基礎第1/2頁6. ajax請求添加自定義header參數代碼7. 解決python腳本中error: unrecognized arguments: True錯誤8. 解決Python 進程池Pool中一些坑9. IntelliJ IDEA創建普通的Java 項目及創建 Java 文件并運行的教程10. php的curl攜帶header請求頭信息實現http訪問的方法

排行榜

					
					Python使用jupyter notebook查看ipynb文件過程解析
解決Python 進程池Pool中一些坑
IntelliJ IDEA調整字體大小的方法
docker容器調用yum報錯的解決辦法
php測試程序運行速度和頁面執行速度的代碼
php網絡安全中命令執行漏洞的產生及本質探究
IntelliJ IDEA 2020最新激活碼(親測有效，可激活至 2089 年)
無線標記語言(WML)基礎之WMLScript 基礎第1/2頁
IntelliJ IDEA 2021.1 首個 Beta 版本發布
IntelliJ Idea 2020.1 正式發布,官方支持中文（必看）
Django Auth用戶認證組件實現代碼