文章詳情頁

python3讀取文件指定行的三種方法

瀏覽：3日期：2022-06-18 15:40:55

目錄行遍歷實現(xiàn)linecache實現(xiàn)命令行sed獲取總結(jié)概要行遍歷實現(xiàn)

在python中如果要將一個文件完全加載到內(nèi)存中，通過file.readlines()即可，但是在文件占用較高時，我們是無法完整的將文件加載到內(nèi)存中的，這時候就需要用到python的file.readline()進(jìn)行迭代式的逐行讀?。?/p>

filename = ’hello.txt’with open(filename, ’r’) as file: line = file.readline() counts = 1 while line:if counts >= 50000000: breakline = file.readline()counts += 1

這里我們的實現(xiàn)方式是先用一個with語句打開一個文件，然后用readline()函數(shù)配合while循環(huán)逐行加載，最終通過一個序號標(biāo)記來結(jié)束循環(huán)遍歷，輸出文件第50000000行的內(nèi)容。該代碼的執(zhí)行效果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real 0m10.359suser 0m10.062ssys 0m0.296s

可以看到這里的耗時為10s多一些。

linecache實現(xiàn)

雖然在python的readline函數(shù)中并沒有實現(xiàn)讀取指定行內(nèi)容的方案，但是在另一個庫linecache中是實現(xiàn)了的，由于使用的方式較為簡單，這里直接放上代碼示例供參考：

filename = ’hello.txt’import linecachetext = linecache.getline(filename, 50000000)

該代碼的執(zhí)行結(jié)果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real 0m11.904suser 0m5.672ssys 0m6.231s

雖然在實現(xiàn)方式上簡化了許多，但是我們發(fā)現(xiàn)這個實現(xiàn)的用時超過了11s，還不如我們自己手動實現(xiàn)的循環(huán)遍歷方案。因此如果是對于性能有一定要求的場景，是不建議采用這個方案的。

命令行sed獲取

我們知道用Linux系統(tǒng)本身自帶的sed指令也是可以獲取到文件指定行或者是指定行范圍的數(shù)據(jù)的，其執(zhí)行指令為：sed -n 50000000p filename即表示讀取文件的第50000000行的內(nèi)容。同時結(jié)合python的話，我們可以在python代碼中執(zhí)行系統(tǒng)指令并獲取輸出結(jié)果：

filename = ’hello.txt’import osresult = os.popen(’sed -n {}p {}’.format(50000000, filename)).read()

需要注意的是，如果直接運行os.system()是沒有返回值的，只有os.popen()是有返回值的，并且需要在尾巴加上一個read()的選項。該代碼的執(zhí)行結(jié)果如下：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real 0m2.532suser 0m0.032ssys 0m0.020s

可以看到直接使用sed指令的執(zhí)行速度很快，但是用這種方法并不是一本萬利的，比如以下這個例子：

filename = ’hello.txt’import osresult = os.popen(’sed -n {}p {}’.format(500, filename)).read()

我們把讀取第50000000行內(nèi)容改為讀取第500行的內(nèi)容，再運行一次程序：

dechin@ubuntu2004:~/projects/gitlab/dechin/$ time python3 get_line.py real 0m2.540suser 0m0.037ssys 0m0.013s

然而我們發(fā)現(xiàn)這個速度并沒有因為要讀取的行數(shù)減少了而變少，而是幾乎保持不變的。

總結(jié)概要

本文通過4個測試案例分析了在python中讀取文件指定行內(nèi)容的方案，并得到了一些運行耗時的數(shù)據(jù)。從需求上來說，如果是對于小規(guī)模的數(shù)據(jù)，比如幾百行規(guī)模的數(shù)據(jù)，建議使用readline循環(huán)遍歷來操作，速度也相當(dāng)不錯，或者是linecache中的函數(shù)實現(xiàn)也是可以的，甚至可以直接用readlines將整個文本內(nèi)容加載到內(nèi)存中。但是對于數(shù)據(jù)規(guī)模比較大的場景，比如超過了千萬行的級別，那么使用sed指令的方式對指定行內(nèi)容進(jìn)行讀取的方式，應(yīng)該是所有方式中最快速的。

本文首發(fā)鏈接為：https://www.cnblogs.com/dechinphy/p/lbl.html

作者ID：DechinPhy

以上就是python3讀取文件指定行的三種方法的詳細(xì)內(nèi)容，更多關(guān)于python讀取文件指定行的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：Python辦公自動化之Excel（中）下一條：如何使用Python逆向抓取APP數(shù)據(jù)

相關(guān)文章：

1. React+umi+typeScript創(chuàng)建項目的過程2. ASP.NET Core 5.0中的Host.CreateDefaultBuilder執(zhí)行過程解析3. SharePoint Server 2019新特性介紹4. ASP中常用的22個FSO文件操作函數(shù)整理5. 三個不常見的 HTML5 實用新特性簡介6. ASP調(diào)用WebService轉(zhuǎn)化成JSON數(shù)據(jù)，附j(luò)son.min.asp7. .Net core 的熱插拔機制的深入探索及卸載問題求救指南8. 無線標(biāo)記語言(WML)基礎(chǔ)之WMLScript 基礎(chǔ)第1/2頁9. 讀大數(shù)據(jù)量的XML文件的讀取問題10. 解決ASP中http狀態(tài)跳轉(zhuǎn)返回錯誤頁的問題

排行榜

					
					Python+logging輸出到屏幕將log日志寫入文件
淺談Django QuerySet對象(模型.objects)的常用方法
django實現(xiàn)模型字段動態(tài)choice的操作
Python如何讀寫CSV文件
Python使用jupyter notebook查看ipynb文件過程解析
用JavaScript實現(xiàn)簡單網(wǎng)頁時鐘
解決Python 進(jìn)程池Pool中一些坑
IntelliJ IDEA調(diào)整字體大小的方法
docker容器調(diào)用yum報錯的解決辦法
使用UML編寫Java應(yīng)用程序 (1)
ASP.NET Core 5.0中的Host.CreateDefaultBuilder執(zhí)行過程解析