文章詳情頁

python - pandas讀取中文的時候亂碼要如何解決?

瀏覽：131日期：2022-08-19 14:15:22

問題描述

下載了一份新浪微博的數(shù)據(jù),但是原始數(shù)據(jù)是用csv的,在mac上沒辦法直接打開,讀取的時候,也會錯誤,會出現(xiàn)

UnicodeDecodeError: ’utf-8’ codec can’t decode byte 0x84 in position 36: invalid start byte

然后自己google,發(fā)現(xiàn)read_csv(’file’, encoding = 'ISO-8859-1') 這樣的時候讀取不會有錯

但是讀取進(jìn)來發(fā)現(xiàn)是這樣的:

中文全部 python - pandas讀取中文的時候亂碼要如何解決?

然后測試了read_csv(’file’, encoding = 'gbk')read_csv(’file’, encoding = 'utf8')read_csv(’file’, encoding = 'gb18030')總之就是各種不行~基本的情況如下:

UnicodeDecodeError: ’gb18030’ codec can’t decode byte 0xaf in position 12: incomplete multibyte sequence

有大神遇到類似的情況嗎?

有大神說要數(shù)據(jù) 因?yàn)楸容^大,熱心的人可以看看不過我覺得挺有用的下面是微博的數(shù)據(jù)鏈接:http://pan.baidu.com/s/1jHCOwCI 密碼:x58f

補(bǔ)充一下代碼吧~上面隨意一個文件下載下來(是csv格式的)然后用pandas打開就會出錯~

import pandasdf = pandas.read_csv('week1.csv')

問題解答

回答1：

給代碼和原數(shù)據(jù)

你寫點(diǎn)能代碼+有代表性的數(shù)據(jù) 即可，別搞幾G的大數(shù)據(jù)阿~

誰看啊？

回答2：

跟你一樣的情況，試了很多編碼仍然沒有用，但是看數(shù)據(jù)用UTF8編碼的話，有的數(shù)據(jù)能轉(zhuǎn)換成功，所以我暫時能想到的辦法就是用open去按行讀取，如果出現(xiàn)編碼轉(zhuǎn)換錯誤就丟掉，這樣下來數(shù)據(jù)量其實(shí)也不少

回答3：

你也可以試試用cp1252。最好的方法是先通過chardet包（https://pypi.python.org/pypi/...）看文件具體上用什么encoding。

回答4：

試過了沒有問題呀，我猜想應(yīng)該是你環(huán)境編碼問題吧，可以嘗試一下以下代碼

#coding=utf-8import pandas as pdimport sysreload(sys)sys.setdefaultencoding('utf-8')df = pd.read_csv(’week1.csv’, encoding=’utf-8’, nrows=10)print df

Python 編程

上一條：python - 一個程序中的切片問題下一條：請教：關(guān)于 python 反斜杠轉(zhuǎn)義的疑問

相關(guān)文章：

1. python執(zhí)行cmd命令，怎么讓他執(zhí)行類似Ctrl+C效果將其結(jié)束命令？2. python - Flask寫的注冊頁面，當(dāng)注冊時，如果填寫數(shù)據(jù)庫里有的相同數(shù)據(jù)，就報錯3. python - Django有哪些成功項(xiàng)目？4. python - scrapy url去重5. 實(shí)現(xiàn)bing搜索工具urlAPI提交6. MySQL主鍵沖突時的更新操作和替換操作在功能上有什么差別(如圖)7. mysql在限制條件下篩選某列數(shù)據(jù)相同的值8. 關(guān)于mysql聯(lián)合查詢一對多的顯示結(jié)果問題9. 數(shù)據(jù)庫 - Mysql的存儲過程真的是個坑！求助下面的存儲過程哪里錯啦，實(shí)在是找不到哪里的問題了。10. Python從URL中提取域名

排行榜

					
					android - 有數(shù)據(jù)要處理的時候如何使用rxJava進(jìn)行異步處理數(shù)據(jù)
javascript - 在ie下為什么會出現(xiàn)這種情況呢 《 無法獲取未定義或 null 引用的屬性“l(fā)ength”》 ？請大神指教。
docker網(wǎng)絡(luò)端口映射，沒有方便點(diǎn)的操作方法么？
docker api 開發(fā)的端口怎么獲取？
docker不顯示端口映射呢？
dockerfile - 我用docker build的時候出現(xiàn)下邊問題  麻煩幫我看一下
docker-compose 為何找不到配置文件？
html5和Flash對抗是什么情況？
android - 哪位大神知道java后臺的api接口的對象傳到前端后輸入日期報錯，是什么情況？求大神指點(diǎn)
前端 - 請教一下CSS3中translateZ和rotateY書寫順序的問題
javascript - 我是做web前端的，公司最近有一個項(xiàng)目關(guān)于數(shù)據(jù)統(tǒng)計的！
				

熱門標(biāo)簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - pandas讀取中文的時候亂碼 要如何解決?

python - pandas讀取中文的時候亂碼要如何解決?