av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術文章
文章詳情頁

python - 關于代碼的優化問題

瀏覽:156日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網站下來的,和網頁另存為沒什么區別。

想大神們幫我看看我的代碼,怎么優化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 成人一区二区视频 | 成人a视频片观看免费 | 国产精品视频一二三区 | 亚洲成人一区二区三区 | 在线成人av| 久久免费大片 | 91精品国产91久久久久久 | 免费 视频 1级 | 国产丝袜一区二区三区免费视频 | 久久久久国产一区二区三区 | 在线资源视频 | 在线免费观看毛片 | 日韩精品视频一区二区三区 | 日韩欧美国产不卡 | 黄网站免费在线看 | 日韩伦理一区二区 | 国产精品一区二区欧美黑人喷潮水 | 中文字幕国产精品 | 欧美国产日韩精品 | 成年人免费在线视频 | 久久99精品久久久久久国产越南 | 免费高潮视频95在线观看网站 | 日本一二三区电影 | 国产亚洲成av人片在线观看桃 | 91视视频在线观看入口直接观看 | 国产一区二区在线免费播放 | 天天夜夜人人 | 精品国产乱码久久久久久果冻传媒 | 2019天天干夜夜操 | 久久国产精品亚洲 | 精品成人在线 | 精品视频在线播放 | 国产h在线 | 亚洲精品视频在线看 | 国产在线观看网站 | 日韩电影在线一区 | 午夜视频在线免费观看 | 成人h免费观看视频 | 一区二区三区国产好 | 免费黄色片在线观看 | 国产精品欧美一区喷水 |