文章詳情頁(yè)

python - 關(guān)于NumPy數(shù)組操作的問(wèn)題

瀏覽：136日期：2022-06-26 18:57:18

問(wèn)題描述

[’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]

numpy數(shù)組，總共有幾個(gè)萬(wàn)個(gè)元素。現(xiàn)在想保留每個(gè)元素前面的編號(hào)000001之類的，并且去掉重復(fù)，只保留唯一的一個(gè)編號(hào)。結(jié)果應(yīng)該是[’000001’,’000002’,’000003’,’000004’]除了用for語(yǔ)句實(shí)現(xiàn)外，有沒(méi)有更高效的辦法？

問(wèn)題解答

回答1：

寫個(gè)NumPy的吧~

python3

>>> import numpy as np>>> a = np.array([’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’])>>> b = np.unique(np.fromiter(map(lambda x:x.split(’_’)[0],a),’|S6’))>>> barray([b’000001’, b’000002’, b’000003’, b’000004’], dtype=’|S6’)

還可以這樣寫：np.frompyfunc’|S6’是以6個(gè)字節(jié)存儲(chǔ)字符串

’<U6’是以6個(gè)小端序Unicode字符存儲(chǔ)字符串

>>> b = np.array(np.unique(np.frompyfunc(lambda x:x[:6],1,1)(a)),dtype=’<U6’)>>> barray([’000001’, ’000002’, ’000003’, ’000004’], dtype=’<U6’)回答2：

綜合兩位仁兄的寫法@同意并接受 @xiaojieluoff

如果編號(hào)長(zhǎng)度固定是前六位，最快的寫法下面第一種最快

import timelst = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000start = time.time()data = {_[:6] for _ in lst}print ’dic: {}’.format(time.time() - start)start = time.time()data = set(_[:6] for _ in lst)print ’set: {}’.format(time.time() - start)start = time.time()data = set(map(lambda _: _[:6], lst))print(’map：{}’.format(time.time() - start))start = time.time()data = set()[data.add(_[:6]) for _ in lst]print(’for：{}’.format(time.time() - start))耗時(shí)：dic: 0.72798705101set: 0.929664850235map：1.89214396477for：1.76194214821回答3：

使用 map 和匿名函數(shù)

lists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’,’000002_2017-03-21.csv’,’000002_2017-03-22.csv’,’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’]data = list(set(map(lambda x:x.split(’_’)[0], lists)))print(data)

輸出：

[’000003’, ’000004’, ’000001’, ’000002’]

運(yùn)行下面代碼可以看到，在 6百萬(wàn) 條數(shù)據(jù)下，map 比 for 快了 0.6s 左右

import timelists = [’000001_2017-03-17.csv’, ’000001_2017-03-20.csv’, ’000002_2017-03-21.csv’, ’000002_2017-03-22.csv’, ’000003_2017-03-23.csv’, ’000004_2017-03-24.csv’] * 1000000map_start = time.clock()map_data = list(set(map(lambda x:x.split(’_’)[0], lists)))map_end = (time.clock() - map_start)print(’map 運(yùn)行時(shí)間：{}’.format(map_end))for_start = time.clock()data = set()for k in lists: data.add(k.split(’_’)[0])for_end = (time.clock() - for_start)print(’for 運(yùn)行時(shí)間：{}’.format(for_end))

輸出：

map 運(yùn)行時(shí)間：2.36173for 運(yùn)行時(shí)間：2.9405870000000003

如果把測(cè)試數(shù)據(jù)擴(kuò)大到 6千萬(wàn)，差距就更明顯了

map 運(yùn)行時(shí)間：29.620203for 運(yùn)行時(shí)間：33.132621

Python 編程

上一條：python - pandas中mode()怎么使用?下一條：求大神解讀一段神級(jí)的Python代碼，謝謝！！

相關(guān)文章：

1. 請(qǐng)教使用PDO連接MSSQL數(shù)據(jù)庫(kù)插入是亂碼問(wèn)題?2. node.js - nodejs開(kāi)發(fā)中常用的連接mysql的庫(kù)3. Python爬蟲(chóng)如何爬取span和span中間的內(nèi)容并分別存入字典里？4. mysql - 分庫(kù)分表、分區(qū)、讀寫分離這些都是用在什么場(chǎng)景下，會(huì)帶來(lái)哪些效率或者其他方面的好處5. 視頻文件不能播放，怎么辦？6. python - 數(shù)據(jù)與循環(huán)次數(shù)對(duì)應(yīng)不上7. mysql - 把一個(gè)表中的數(shù)據(jù)count更新到另一個(gè)表里?8. 黑客 - Python模塊安全權(quán)限9. flask - python web中如何共享登錄狀態(tài)？10. mysql 查詢身份證號(hào)字段值有效的數(shù)據(jù)

排行榜

					
					node.js - npm init無(wú)法一直回車。到version就卡主不動(dòng)了
解決Android webview設(shè)置cookie和cookie丟失的問(wèn)題
javascript - 關(guān)于css絕對(duì)定位在ios瀏覽器被橡皮筋遮擋的問(wèn)題
javascript - sessionstorage,localstorage在移動(dòng)端的兼容性怎么樣?
visual-studio - Python OpenCV: 奇怪的自動(dòng)補(bǔ)全問(wèn)題
python bottle跑起來(lái)以后,定時(shí)執(zhí)行的任務(wù)為什么每次都重復(fù)(多)執(zhí)行一次?
javascript - 移動(dòng)端自適應(yīng)
docker內(nèi)創(chuàng)建jenkins訪問(wèn)另一個(gè)容器下的服務(wù)器問(wèn)題
debian - docker依賴的aufs-tools源碼哪里可以找到啊？
python - nginx為什么不能反代圖片?
javascript - vuejs 如何在單文件組件中使用混合
				

熱門標(biāo)簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 關(guān)于NumPy數(shù)組操作的問(wèn)題