python讀取hdfs并返回dataframe教程
不多說,直接上代碼
from hdfs import Clientimport pandas as pd HDFSHOST = 'http://xxx:50070'FILENAME = '/tmp/preprocess/part-00000' #hdfs文件路徑COLUMNNAMES = [xx’] def readHDFS():’’’讀取hdfs文件 Returns:df:dataframe hdfs數據’’’client = Client(HDFSHOST)# 目前讀取hdfs文件采用方式:# 1. 先從hdfs讀取二進制數據流文件# 2. 將二進制文件另存為.csv# 3. 使用pandas讀取csv文件with client.read(FILENAME) as fs:content = fs.read()s = str(content, ’utf-8’)file = open('data/tmp/data.csv', 'w')file.write(s)df = pd.read_csv('data/tmp/data.csv', names=COLUMNNAMES)return df
補充知識:Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV
1. 目標
通過hadoop hive或spark等數據計算框架完成數據清洗后的數據在HDFS上
爬蟲和機器學習在Python中容易實現
在Linux環境下編寫Python沒有pyCharm便利
需要建立Python與HDFS的讀寫通道
2. 實現
安裝Python模塊pyhdfs
版本:Python3.6, hadoop 2.9
讀文件代碼如下
from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’)#hdfs地址res=client.open(’/sy.txt’)#hdfs文件路徑,根目錄/for r in res: line=str(r,encoding=’utf8’)#open后是二進制,str()轉換為字符串并轉碼 print(line)
寫文件代碼如下
from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’,user_name=’hadoop’)#只有hadoop用戶擁有寫權限str=’hello world’client.create(’/py.txt’,str)#創建新文件并寫入字符串
上傳本地文件到HDFS
from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)client.copy_from_local(’d:/pydemo.txt’, ’/pydemo’)#本地文件絕對路徑,HDFS目錄必須不存在
3. 讀取文本文件寫入csv
Python安裝pandas模塊
確認文本文件的分隔符
# pyhdfs讀取文本文件,分隔符為逗號,from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)inputfile=client.open(’/int.txt’)# pandas調用讀取方法read_tableimport pandas as pddf=pd.read_table(inputfile,encoding=’gbk’,sep=’,’)#參數為源文件,編碼,分隔符# 數據集to_csv方法轉換為csvdf.to_csv(’demo.csv’,encoding=’gbk’,index=None)#參數為目標文件,編碼,是否要索引
以上這篇python讀取hdfs并返回dataframe教程就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持好吧啦網。
相關文章:
1. php網絡安全中命令執行漏洞的產生及本質探究2. 三個不常見的 HTML5 實用新特性簡介3. Angular獲取ngIf渲染的Dom元素示例4. IIS+PHP添加對webp格式圖像的支持配置方法5. ASP調用WebService轉化成JSON數據,附json.min.asp6. 無線標記語言(WML)基礎之WMLScript 基礎第1/2頁7. 使用.net core 自帶DI框架實現延遲加載功能8. Warning: require(): open_basedir restriction in effect,目錄配置open_basedir報錯問題分析9. php測試程序運行速度和頁面執行速度的代碼10. ASP.NET Core 5.0中的Host.CreateDefaultBuilder執行過程解析
