文章詳情頁
網(wǎng)頁爬蟲 - Python:爬蟲的中文編碼問題?
瀏覽:143日期:2022-08-26 10:56:16
問題描述
爬取中文網(wǎng)頁后正則匹配出中文,得打UTF-8的編碼字符
將其輸出為.csv文件
在.CSV中顯示為亂碼
用記事本打開.csv又可以正常顯示為中文
有沒有大神指點(diǎn)是怎么一回事?怎樣才能在Excel里直接看到中文?
問題解答
回答1:簡單地方法是用pandas的to_excel方法轉(zhuǎn)化成.xlsx文件,因?yàn)?xlsx默認(rèn)編碼是默認(rèn)支持Excel的,區(qū)別當(dāng)然是無法用記事本打開。
import pandas as pda = pd.read_csv(’./test.csv’)a.to_excel(’./test_output.xlsx’, index=False)a.to_excel(’./test_output.csv’, index=False)
我這里沒有windows可以測試,可以嘗試寫入編碼為gb2312或者gbk試試。
表格文件類I/O的話其實(shí)pandas更方便一點(diǎn)。
回答2:abs1=abs1.decode().encode(’gbk’)
回答3:excel默認(rèn)使用的是GBK編碼。
回答4:新建一個(gè)excel文件,然后點(diǎn) 數(shù)據(jù) 自文本,導(dǎo)入csv文件
相關(guān)文章:
1. python - 如何正則字符串中的所有漢字2. mysql - 千萬級(jí)數(shù)據(jù)的表,添加unique約束,insert會(huì)不會(huì)很慢?3. python - oslo_config4. mysql - 分庫分表、分區(qū)、讀寫分離 這些都是用在什么場景下 ,會(huì)帶來哪些效率或者其他方面的好處5. mysql - 如何減少使用或者不用LEFT JOIN查詢?6. mysql - eclispe無法打開數(shù)據(jù)庫連接7. mysql 5個(gè)left關(guān)鍵 然后再用搜索條件 幾千條數(shù)據(jù)就會(huì)卡,如何解決呢8. mysql - jdbc的問題9. 圖片鏈接的地址怎么獲得的10. 視頻文件不能播放,怎么辦?
排行榜

熱門標(biāo)簽