文章詳情頁

Python jieba結巴分詞原理及用法解析

瀏覽：6日期：2022-07-06 11:58:45

1、簡要說明

結巴分詞支持三種分詞模式，支持繁體字，支持自定義詞典

2、三種分詞模式

全模式：把句子中所有的可以成詞的詞語都掃描出來, 速度非?？?，但是不能解決歧義

精簡模式：把句子最精確的分開，不會添加多余單詞，看起來就像是把句子分割一下

搜索引擎模式：在精簡模式下，對長詞再度切分

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’我去北京天安門廣場跳舞’ a = jieba.lcut(str1, cut_all=True) # 全模式 print(’全模式:{}’.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡模式 print(’精簡模式:{}’.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print(’搜索引擎模式:{}’.format(c))

運行

Python jieba結巴分詞原理及用法解析

3、某個詞語不能被分開

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: str1 = ’桃花俠大戰菊花怪’ b = jieba.lcut(str1, cut_all=False) # 精簡模式 print(’精簡模式:{}’.format(b)) # 如果不把桃花俠分開 jieba.add_word(’桃花俠’) d = jieba.lcut(str1) # 默認是精簡模式 print(d)

運行

Python jieba結巴分詞原理及用法解析

4、某個單詞必須被分開

# -*- encoding=utf-8 -*-import jiebaif __name__ == ’__main__’: # HMM參數，默認為True ’’’HMM 模型，即隱馬爾可夫模型（Hidden Markov Model, HMM），是一種基于概率的統計分析模型，用來描述一個系統隱性狀態的轉移和隱性狀態的表現概率。在 jieba 中，對于未登錄到詞庫的詞，使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法，其大致原理是：采用四個隱含狀態，分別表示為單字成詞，詞組的開頭，詞組的中間，詞組的結尾。通過標注好的分詞訓練集，可以得到 HMM 的各個參數，然后使用 Viterbi 算法來解釋測試集，得到分詞結果。 ’’’ str1 = ’桃花俠大戰菊花怪’ b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡模式，且不使用HMM模型 print(’精簡模式:{}’.format(b)) # 分開大戰為大和戰 jieba.suggest_freq((’大’, ’戰’), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print(’分開:{}’.format(e))

運行

Python jieba結巴分詞原理及用法解析

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python Pandas數據分析工具用法實例下一條：Python根據字符串調用函數過程解析

相關文章：

1. React+umi+typeScript創建項目的過程2. ASP中常用的22個FSO文件操作函數整理3. ASP.NET Core 5.0中的Host.CreateDefaultBuilder執行過程解析4. SharePoint Server 2019新特性介紹5. .Net core 的熱插拔機制的深入探索及卸載問題求救指南6. 解決ASP中http狀態跳轉返回錯誤頁的問題7. 讀大數據量的XML文件的讀取問題8. ASP編碼必備的8條原則9. 無線標記語言(WML)基礎之WMLScript 基礎第1/2頁10. ASP調用WebService轉化成JSON數據，附json.min.asp

排行榜

					
					PHP擴展之錯誤處理和日志記錄
Python如何讀寫CSV文件
如何通過python計算圓周率PI
Python+logging輸出到屏幕將log日志寫入文件
在PHP中進行GB2312與UTF-8的互換
django實現模型字段動態choice的操作
Python使用jupyter notebook查看ipynb文件過程解析
Django 解決model 反向引用中的related_name問題
解決Python 進程池Pool中一些坑
IntelliJ IDEA調整字體大小的方法
docker容器調用yum報錯的解決辦法