文章詳情頁

網頁爬蟲 - Python：爬蟲的中文編碼問題？

瀏覽：164日期：2022-08-26 10:56:16

問題描述

爬取中文網頁后正則匹配出中文，得打UTF-8的編碼字符網頁爬蟲 - Python：爬蟲的中文編碼問題？

將其輸出為.csv文件網頁爬蟲 - Python：爬蟲的中文編碼問題？

在.CSV中顯示為亂碼網頁爬蟲 - Python：爬蟲的中文編碼問題？

用記事本打開.csv又可以正常顯示為中文網頁爬蟲 - Python：爬蟲的中文編碼問題？

有沒有大神指點是怎么一回事？怎樣才能在Excel里直接看到中文？

問題解答

回答1：

簡單地方法是用pandas的to_excel方法轉化成.xlsx文件，因為.xlsx默認編碼是默認支持Excel的，區別當然是無法用記事本打開。

import pandas as pda = pd.read_csv(’./test.csv’)a.to_excel(’./test_output.xlsx’, index=False)a.to_excel(’./test_output.csv’, index=False)

我這里沒有windows可以測試，可以嘗試寫入編碼為gb2312或者gbk試試。

表格文件類I/O的話其實pandas更方便一點。

回答2：

abs1=abs1.decode().encode(’gbk’)

回答3：

excel默認使用的是GBK編碼。

回答4：

新建一個excel文件，然后點數據自文本，導入csv文件

Python 編程

上一條：python 如何打印bytes以16進制輸出下一條：python - 獲取到的數據生成新的mysql表

相關文章：

1. python文檔怎么查看？2. python - pycharm 自動刪除行尾空格3. 安全性測試 - nodejs中如何防mySQL注入4. python - pandas按照列A和列B分組，將列C求平均數，怎樣才能生成一個列A,B,C的dataframe5. python - Pycharm的Debug用不了6. html - eclipse 標簽錯誤7. python 利用subprocess庫調用mplayer時發生錯誤8. 請問PHPstudy中的數據庫如何創建索引9. datetime - Python如何獲取當前時間10. javascript - 有適合開發手機端Html5網頁小游戲的前端框架嗎？

排行榜

					
					python - pycharm 自動刪除行尾空格
python 利用subprocess庫調用mplayer時發生錯誤
java - spring boot 如何打包成asp.net core 那種獨立應用?
docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？
docker start -a dockername 老是卡住，什么情況？
docker網絡端口映射，沒有方便點的操作方法么？
docker綁定了nginx端口 外部訪問不到
angular.js - angular.ui：dropdown的下拉菜單關閉的偶爾失常問題
javascript - nginx反向代理靜態資源403錯誤?
html - eclipse 標簽錯誤
python - pandas按照列A和列B分組，將列C求平均數，怎樣才能生成一個列A,B,C的dataframe
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

網頁爬蟲 - Python：爬蟲的中文編碼問題？