av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術(shù)文章
文章詳情頁

在python下實現(xiàn)word2vec詞向量訓練與加載實例

瀏覽:8日期:2022-07-22 08:14:49

項目中要對短文本進行相似度估計,word2vec是一個很火的工具。本文就word2vec的訓練以及加載進行了總結(jié)。

word2vec的原理就不描述了,word2vec詞向量工具是由google開發(fā)的,輸入為文本文檔,輸出為基于這個文本文檔的語料庫訓練得到的詞向量模型。

通過該模型可以對單詞的相似度進行量化分析。

word2vec的訓練方法有2種,一種是通過word2vec的官方手段,在linux環(huán)境下編譯并執(zhí)行。

在github上下載word2vec的安裝包,然后make編譯。查看demo-word.sh腳本,得到word2vec的執(zhí)行命令:

./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15

參數(shù)解釋:

1)-train:需要訓練的語料庫,text8為語料庫文件名

2)-output:輸出的詞向量文件,vectors.bin為輸出詞向量文件名,.bin后綴為二進制文件。若要以文檔的形式查看詞向量文件,需要將-binary參數(shù)的值由1改為0

3)-cbow:是否使用cbow模型進行訓練。參數(shù)為1表示使用cbow,為0表示不使用cbow

4)-size:詞向量的維數(shù),默認為200維。

5)-window:訓練過程中截取上下文的窗口大小,默認為8,即考慮一個詞前8個和后8個詞

6)-negative:若參數(shù)非0,表明采樣隨機負采樣的方法,負樣本子集的規(guī)模默認為25。若參數(shù)值為0,表示不使用隨機負采樣模型。使用隨機負采樣比Hierarchical Softmax模型效率更高。

7)-hs:是否采用基于Hierarchical Softmax的模型。參數(shù)為1表示使用,0表示不使用

8)-sample:語料庫中的詞頻閾值參數(shù),詞頻大于該閾值的詞,越容易被采樣。默認為e^-4.

9)-threads:開啟的線程數(shù)目,默認為20.

10)-binary:詞向量文件的輸出形式。1表示輸出二進制文件,0表示輸出文本文件

11)-iter:訓練的迭代次數(shù)。一定范圍內(nèi),次數(shù)越高,訓練得到的參數(shù)會更準確。默認值為15次.

./word2vec -train mytext.txt -output vectors.txt -cbow 1 -size 200 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 30

示例為訓練一個名mytext.txt的文檔。設(shè)置輸出詞向量的格式為.txt文本文檔,所以還需要將-binary參數(shù)設(shè)置為0.

訓練模型采用基于隨機負采樣的cbow模型。由于短文本字數(shù)極為有限,所以-window參數(shù)設(shè)置為5,設(shè)置詞向量的維數(shù)

為200,為了使得到的參數(shù)更準確,將迭代次數(shù)增加至30.其他參數(shù)使用默認值。

訓練以后得到一個txt文本,該文本的內(nèi)容為:每行一個單詞,單詞后面是對應的詞向量。

gensim加載詞向量:

保存詞向量模型到pkl中(注意:這里是對詞向量模型進行構(gòu)建)

from gensim.models import KeyedVectorsif not os.path.exists(pkl_path): # 如果pickle模型不存在,則構(gòu)建一個 print ’詞向量模型不存在,開始構(gòu)建詞向量模型...’ Word2Vec = KeyedVectors.load_word2vec_format(vecs_path, binary=False) # 加載詞向量模型 f = file(pkl_path, ’wb’) pickle.dump(Word2Vec, f, True) f.close() print ’詞向量模型構(gòu)建完畢...’f= file(pkl_path, ’rb’)# 打開pkl文件word2vec=pickle.load(f)# 載入pkl

第二種方法是使用gensim模塊訓練詞向量:

from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentencetry: import cPickle as pickleexcept ImportError: import picklesentences = LineSentence(path)# path為要訓練的txt的路徑# 對sentences表示的語料庫進行訓練,訓練200維的詞向量,窗口大小設(shè)置為5,最小詞頻設(shè)置為5model = Word2Vec(sentences, size=200, window=5, min_count=5)model.save(model_path)#model_path為模型路徑。保存模型,通常采用pkl形式保存,以便下次直接加載即可# 加載模型model = Word2Vec.load(model_path)

完整的訓練,加載通常采用如下方式:

if not os.path.exists(model_path): sentences = LineSentence(path) model = Word2Vec(sentences, size=200, window=5, min_count=5) model.save(model_path)model = Word2Vec.load(model_path)

這樣一來,就可以通過pkl化的詞向量模型進行讀取了。pkl的目的是為了保存程序中變量的狀態(tài),以便下次直接訪問,

不必重新訓練模型。

詳細內(nèi)容間gensim官方庫

https://radimrehurek.com/gensim/models/word2vec.html

以上這篇在python下實現(xiàn)word2vec詞向量訓練與加載實例就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持好吧啦網(wǎng)。

標簽: python
相關(guān)文章:
主站蜘蛛池模板: 午夜爽爽男女免费观看hd | 欧美 日韩 在线播放 | 国产视频1区2区 | 欧美日韩三级在线观看 | 日韩成人影院 | 日韩欧美网 | 欧美福利在线 | 在线日韩精品视频 | 精品视频一区二区三区在线观看 | 欧美一级视频免费看 | 精品一区视频 | 欧美精品综合在线 | 伊人网站在线观看 | 精品免费国产一区二区三区 | 91精品国产日韩91久久久久久 | 亚洲精品一区国产精品 | 女同久久另类99精品国产 | 国产一区在线免费观看视频 | 黑人巨大精品欧美黑白配亚洲 | 天天拍天天色 | 免费观看一级视频 | 亚洲人人舔人人 | 9999视频| 超级乱淫av片免费播放 | 亚洲视频精品在线 | 亚洲欧洲精品成人久久奇米网 | 中文字幕亚洲一区二区三区 | 精品欧美一区二区三区 | 久久久九九九九 | 日韩精品视频一区二区三区 | 国产精品永久免费 | 福利网址 | 影音先锋成人资源 | 依人成人 | 欧美高清视频一区 | 狠狠插狠狠操 | 亚洲国产成人精品久久久国产成人一区 | 99精品视频网 | 国产精品久久久久久久久久久久久久 | 在线四虎| 国产成人免费视频 |