文章詳情頁

Python如何讀取、寫入CSV數(shù)據(jù)

瀏覽：46日期：2022-07-16 10:52:22

問題

你想讀寫一個CSV格式的文件。

解決方案

對于大多數(shù)的CSV格式的數(shù)據(jù)讀寫問題，都可以使用 csv 庫。、例如，假設(shè)你在一個名叫stocks.csv文件中有一些股票市場數(shù)據(jù)，就像這樣：

下面向你展示如何將這些數(shù)據(jù)讀取為一個元組的序列：

import csvwith open(’stocks.csv’) as f: f_csv = csv.reader(f) headers = next(f_csv) for row in f_csv: # Process row ...

在上面的代碼中，row 會是一個元組。因此，為了訪問某個字段，你需要使用下標(biāo)，如row[0]訪問Symbol，row[4]訪問Change。

由于這種下標(biāo)訪問通常會引起混淆，你可以考慮使用命名元組。例如：

from collections import namedtuplewith open(’stock.csv’) as f: f_csv = csv.reader(f) headings = next(f_csv) Row = namedtuple(’Row’, headings) for r in f_csv: row = Row(*r) # Process row ...

它允許你使用列名如 row.Symbol 和 row.Change 代替下標(biāo)訪問。需要注意的是這個只有在列名是合法的Python標(biāo)識符的時候才生效。如果不是的話，你可能需要修改下原始的列名(如將非標(biāo)識符字符替換成下劃線之類的)。

另外一個選擇就是將數(shù)據(jù)讀取到一個字典序列中去?？梢赃@樣做：

import csvwith open(’stocks.csv’) as f: f_csv = csv.DictReader(f) for row in f_csv: # process row ...

在這個版本中，你可以使用列名去訪問每一行的數(shù)據(jù)了。比如，row[’Symbol’] 或者 row[’Change’] 。

為了寫入CSV數(shù)據(jù)，你仍然可以使用csv模塊，不過這時候先創(chuàng)建一個 writer 對象。例如;

headers = [’Symbol’,’Price’,’Date’,’Time’,’Change’,’Volume’]rows = [(’AA’, 39.48, ’6/11/2007’, ’9:36am’, -0.18, 181800), (’AIG’, 71.38, ’6/11/2007’, ’9:36am’, -0.15, 195500), (’AXP’, 62.58, ’6/11/2007’, ’9:36am’, -0.46, 935000), ]with open(’stocks.csv’,’w’) as f: f_csv = csv.writer(f) f_csv.writerow(headers) f_csv.writerows(rows)

如果你有一個字典序列的數(shù)據(jù)，可以像這樣做：

headers = [’Symbol’, ’Price’, ’Date’, ’Time’, ’Change’, ’Volume’]rows = [{’Symbol’:’AA’, ’Price’:39.48, ’Date’:’6/11/2007’, ’Time’:’9:36am’, ’Change’:-0.18, ’Volume’:181800}, {’Symbol’:’AIG’, ’Price’: 71.38, ’Date’:’6/11/2007’, ’Time’:’9:36am’, ’Change’:-0.15, ’Volume’: 195500}, {’Symbol’:’AXP’, ’Price’: 62.58, ’Date’:’6/11/2007’, ’Time’:’9:36am’, ’Change’:-0.46, ’Volume’: 935000}, ]with open(’stocks.csv’,’w’) as f: f_csv = csv.DictWriter(f, headers) f_csv.writeheader() f_csv.writerows(rows)

討論

你應(yīng)該總是優(yōu)先選擇csv模塊分割或解析CSV數(shù)據(jù)。例如，你可能會像編寫類似下面這樣的代碼：

with open(’stocks.csv’) as f:for line in f: row = line.split(’,’) # process row ...

使用這種方式的一個缺點(diǎn)就是你仍然需要去處理一些棘手的細(xì)節(jié)問題。比如，如果某些字段值被引號包圍，你不得不去除這些引號。另外，如果一個被引號包圍的字段碰巧含有一個逗號，那么程序就會因?yàn)楫a(chǎn)生一個錯誤大小的行而出錯。

默認(rèn)情況下，csv 庫可識別Microsoft Excel所使用的CSV編碼規(guī)則。這或許也是最常見的形式，并且也會給你帶來最好的兼容性。然而，如果你查看csv的文檔，就會發(fā)現(xiàn)有很多種方法將它應(yīng)用到其他編碼格式上(如修改分割字符等)。例如，如果你想讀取以tab分割的數(shù)據(jù)，可以這樣做：

# Example of reading tab-separated valueswith open(’stock.tsv’) as f: f_tsv = csv.reader(f, delimiter=’t’) for row in f_tsv: # Process row ...

如果你正在讀取CSV數(shù)據(jù)并將它們轉(zhuǎn)換為命名元組，需要注意對列名進(jìn)行合法性認(rèn)證。例如，一個CSV格式文件有一個包含非法標(biāo)識符的列頭行，類似下面這樣：

這樣最終會導(dǎo)致在創(chuàng)建一個命名元組時產(chǎn)生一個 ValueError 異常而失敗。為了解決這問題，你可能不得不先去修正列標(biāo)題。例如，可以像下面這樣在非法標(biāo)識符上使用一個正則表達(dá)式替換：

import rewith open(’stock.csv’) as f: f_csv = csv.reader(f) headers = [ re.sub(’[^a-zA-Z_]’, ’_’, h) for h in next(f_csv) ] Row = namedtuple(’Row’, headers) for r in f_csv: row = Row(*r) # Process row ...

還有重要的一點(diǎn)需要強(qiáng)調(diào)的是，csv產(chǎn)生的數(shù)據(jù)都是字符串類型的，它不會做任何其他類型的轉(zhuǎn)換。如果你需要做這樣的類型轉(zhuǎn)換，你必須自己手動去實(shí)現(xiàn)。下面是一個在CSV數(shù)據(jù)上執(zhí)行其他類型轉(zhuǎn)換的例子：

col_types = [str, float, str, str, float, int]with open(’stocks.csv’) as f: f_csv = csv.reader(f) headers = next(f_csv) for row in f_csv: # Apply conversions to the row items row = tuple(convert(value) for convert, value in zip(col_types, row)) ...

另外，下面是一個轉(zhuǎn)換字典中特定字段的例子：

print(’Reading as dicts with type conversion’)field_types = [ (’Price’, float), (’Change’, float), (’Volume’, int) ]with open(’stocks.csv’) as f: for row in csv.DictReader(f): row.update((key, conversion(row[key])) for key, conversion in field_types) print(row)

通常來講，你可能并不想過多去考慮這些轉(zhuǎn)換問題。在實(shí)際情況中，CSV文件都或多或少有些缺失的數(shù)據(jù)，被破壞的數(shù)據(jù)以及其它一些讓轉(zhuǎn)換失敗的問題。因此，除非你的數(shù)據(jù)確實(shí)有保障是準(zhǔn)確無誤的，否則你必須考慮這些問題(你可能需要增加合適的錯誤處理機(jī)制)。

最后，如果你讀取CSV數(shù)據(jù)的目的是做數(shù)據(jù)分析和統(tǒng)計(jì)的話，你可能需要看一看 Pandas 包。Pandas 包含了一個非常方便的函數(shù)叫 pandas.read_csv() ，它可以加載CSV數(shù)據(jù)到一個 DataFrame 對象中去。然后利用這個對象你就可以生成各種形式的統(tǒng)計(jì)、過濾數(shù)據(jù)以及執(zhí)行其他高級操作了。

以上就是Python如何讀寫CSV數(shù)據(jù)的詳細(xì)內(nèi)容，更多關(guān)于Python讀寫CSV數(shù)據(jù)的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：Python基于xlutils修改表格內(nèi)容過程解析下一條：虛擬機(jī)下載python是否需要聯(lián)網(wǎng)

相關(guān)文章：

1. moment轉(zhuǎn)化時間戳出現(xiàn)Invalid Date的問題及解決2. python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊3. Java剖析工具YourKit 發(fā)布5.0版本4. 開發(fā)效率翻倍的Web API使用技巧5. python實(shí)現(xiàn)坦克大戰(zhàn)6. 使用JSP技術(shù)實(shí)現(xiàn)一個簡單的在線測試系統(tǒng)的實(shí)例詳解7. 跟我學(xué)XSL（一）第1/5頁8. Python中內(nèi)建模塊collections如何使用9. 為什么你的android代碼寫得這么亂10. 解決VUE項(xiàng)目localhost端口服務(wù)器拒絕連接,只能用127.0.0.1的問題

排行榜

					
					moment轉(zhuǎn)化時間戳出現(xiàn)Invalid Date的問題及解決
python爬蟲實(shí)戰(zhàn)之制作屬于自己的一個IP代理模塊
Java剖析工具YourKit 發(fā)布5.0版本
Docker創(chuàng)建本地鏡像實(shí)現(xiàn)方法解析
idea設(shè)置自動導(dǎo)入依賴的方法步驟
動態(tài)設(shè)置django的model field的默認(rèn)值操作步驟
為什么你的android代碼寫得這么亂
python實(shí)現(xiàn)坦克大戰(zhàn)
開發(fā)效率翻倍的Web API使用技巧
使用JSP技術(shù)實(shí)現(xiàn)一個簡單的在線測試系統(tǒng)的實(shí)例詳解
解決VUE項(xiàng)目localhost端口服務(wù)器拒絕連接,只能用127.0.0.1的問題