av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術(shù)文章
文章詳情頁

python - 關(guān)于代碼的優(yōu)化問題

瀏覽:154日期:2022-08-17 09:32:17

問題描述

我新手寫的代碼,用來處理爬蟲下來的htm文件內(nèi)容,雖然解決問題,但是會有遺漏文件不處理。爬蟲是爬一些文章的網(wǎng)站下來的,和網(wǎng)頁另存為沒什么區(qū)別。

想大神們幫我看看我的代碼,怎么優(yōu)化不會有遺漏。比較小白的代碼,麻煩了!!!

# -*- coding: utf-8 -*import reimport globfilename_list = glob.glob(’*.html’)for i in filename_list: txt = '' with open(i, 'r') as htmfile:txt = htmfile.read() scdy = r'<hr[sS]*?<hr' onedotxt = re.findall(scdy, txt) if onedotxt:r = onedotxt[0] twotxt=re.sub(’<[^>]*>’, ’’, r) threetxt=re.sub(’<hr’, ’’, twotxt) fourtxt=re.sub(’&#8217;’, ’’, threetxt) fivetxt=re.sub(’&#8221;’, ’'’, fourtxt) sixtxt=re.sub(’&#8220;’, ’'’, fivetxt)endstr=re.sub(’&#8211;’, ’-’, sixtxt) name = endstr.split(’n’)[1] with open(name+'.txt', 'w') as wf: wf.write(endstr)

問題解答

回答1:

filename_list = glob.glob(’.html’) + glob.glob(’.htm’)

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 亚洲一区二区三区免费视频 | 免费一区 | 精品一区久久 | 成人国产免费视频 | 欧美精品一区免费 | 成人午夜免费视频 | 亚洲视频在线看 | 粉嫩高清一区二区三区 | 成人在线免费观看 | 在线播放中文 | 久久久久国产精品 | 亚洲日本一区二区三区四区 | 欧美日韩一区二区在线观看 | 男女视频在线观看 | 国产精品美女久久久久久不卡 | 欧美一级在线 | 91丨国产 | 视频在线h| 欧美日日| 国产婷婷精品av在线 | 日韩精品a在线观看图片 | 亚洲天堂久久新 | 少妇淫片aaaaa毛片叫床爽 | 日韩中文字幕一区 | 国产精品久久久久久久久久免费 | 精品美女在线观看视频在线观看 | www.成人.com | 91在线播| 久久久久久久久久久久91 | 日韩欧美国产精品一区二区三区 | 日韩中文字幕一区二区 | 粉嫩一区二区三区四区公司1 | 国产一区二区精品在线 | 国产精品视频不卡 | 欧美一级大片 | 天天拍天天操 | 99亚洲视频| 日本一区二区三区四区 | 免费特黄视频 | 一级毛片在线看 | 精品久久香蕉国产线看观看亚洲 |