av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術文章
文章詳情頁

Python jieba結巴分詞原理及用法解析

瀏覽:6日期:2022-07-06 11:58:45

1、簡要說明

結巴分詞支持三種分詞模式,支持繁體字,支持自定義詞典

2、三種分詞模式

全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義

精簡模式:把句子最精確的分開,不會添加多余單詞,看起來就像是把句子分割一下

搜索引擎模式:在精簡模式下,對長詞再度切分

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’我去北京天安門廣場跳舞’ a = jieba.lcut(str1, cut_all=True) # 全模式 print(’全模式:{}’.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡模式 print(’精簡模式:{}’.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print(’搜索引擎模式:{}’.format(c))

運行

Python jieba結巴分詞原理及用法解析

3、某個詞語不能被分開

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’桃花俠大戰菊花怪’ b = jieba.lcut(str1, cut_all=False) # 精簡模式 print(’精簡模式:{}’.format(b)) # 如果不把桃花俠分開 jieba.add_word(’桃花俠’) d = jieba.lcut(str1) # 默認是精簡模式 print(d)

運行

Python jieba結巴分詞原理及用法解析

4、 某個單詞必須被分開

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: # HMM參數,默認為True ’’’HMM 模型,即隱馬爾可夫模型(Hidden Markov Model, HMM),是一種基于概率的統計分析模型, 用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。 在 jieba 中,對于未登錄到詞庫的詞,使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法, 其大致原理是: 采用四個隱含狀態,分別表示為單字成詞,詞組的開頭,詞組的中間,詞組的結尾。 通過標注好的分詞訓練集,可以得到 HMM 的各個參數,然后使用 Viterbi 算法來解釋測試集,得到分詞結果。 ’’’ str1 = ’桃花俠大戰菊花怪’ b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡模式,且不使用HMM模型 print(’精簡模式:{}’.format(b)) # 分開大戰為大和戰 jieba.suggest_freq((’大’, ’戰’), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print(’分開:{}’.format(e))

運行

Python jieba結巴分詞原理及用法解析

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持好吧啦網。

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 精品久久久久久 | 国产精品一区二区欧美黑人喷潮水 | 亚洲成人一区二区三区 | 国产精品高潮呻吟久久 | 黄视频国产 | 中文字幕乱码视频32 | 久久高清免费视频 | 国产一区二区三区久久 | 色接久久 | 日本免费一区二区三区 | 国产精品美女久久久久aⅴ国产馆 | 亚洲性人人天天夜夜摸 | 精品国产乱码久久久久久蜜柚 | 精品久久久久久久人人人人传媒 | 在线观看中文字幕 | 一区二区国产在线 | 亚洲精品视频观看 | 欧洲精品在线观看 | 日韩一区二区三区在线视频 | 国产午夜精品一区二区三区嫩草 | 成人在线小视频 | 欧美综合一区 | 精品一区二区三区在线观看国产 | 视频一区在线观看 | 亚洲精品欧美 | 中文字幕一级 | 亚洲不卡在线观看 | 亚洲精品电影在线观看 | 精品久久久久国产免费第一页 | 在线欧美亚洲 | 亚洲国产精品一区二区三区 | 国产一区二区三区四区 | 精品区 | av电影一区 | 91在线视频网址 | 毛片毛片毛片毛片 | 国产精品国产精品国产专区不片 | 久热久| 国产一区二区三区在线视频 | 一级片免费观看 | 黄色操视频 |