文章詳情頁

Java DFA算法案例詳解

瀏覽：5日期：2023-12-07 09:21:12

1.背景

項目中需要對敏感詞做一個過濾，首先有幾個方案可以選擇：

直接將敏感詞組織成String后，利用indexOf方法來查詢。傳統(tǒng)的敏感詞入庫后SQL查詢。利用Lucene建立分詞索引來查詢。利用DFA算法來進行。

首先，項目收集到的敏感詞有幾千條，使用a方案肯定不行。其次，為了方便以后的擴展性盡量減少對數(shù)據(jù)庫的依賴，所以放棄b方案。然后Lucene本身作為本地索引，敏感詞增加后需要觸發(fā)更新索引，并且這里本著輕量原則不想引入更多的庫，所以放棄c方案。于是我們選定d方案為研究目標。

2.DFA算法簡介

DFA全稱為：Deterministic Finite Automaton,即確定有窮自動機。其特征為：有一個有限狀態(tài)集合和一些從一個狀態(tài)通向另一個狀態(tài)的邊，每條邊上標記有一個符號，其中一個狀態(tài)是初態(tài)，某些狀態(tài)是終態(tài)。但不同于不確定的有限自動機，DFA中不會有從同一狀態(tài)出發(fā)的兩條邊標志有相同的符號。

Java DFA算法案例詳解

簡單點說就是，它是是通過event和當前的state得到下一個state，即event+state=nextstate。理解為系統(tǒng)中有多個節(jié)點，通過傳遞進入的event，來確定走哪個路由至另一個節(jié)點，而節(jié)點是有限的。

3.敏感詞搜尋中的DFA算法3.1敏感詞庫構造描述

以王八蛋和王八羔子兩個敏感詞來進行描述，首先構建敏感詞庫，該詞庫名稱為SensitiveMap，這兩個詞的二叉樹構造為：

Java DFA算法案例詳解

用hash表構造為：

Java DFA算法案例詳解

3.2基于敏感詞庫收索算法的描述

以上面例子構造出來的SensitiveMap為敏感詞庫進行示意，假設這里輸入的關鍵字為：王八不好，流程圖如下：

Java DFA算法案例詳解

4.代碼編寫4.1構造敏感詞實現(xiàn)代碼

Java DFA算法案例詳解

4.2實現(xiàn)敏感詞查詢代碼

Java DFA算法案例詳解

5.優(yōu)化思路5.1敏感詞中間填充無意義字符問題

對于“王*八&&蛋”這樣的詞，中間填充了無意義的字符來混淆，在我們做敏感詞搜索時，同樣應該做一個無意義詞的過濾，當循環(huán)到這類無意義的字符時進行跳過，避免干擾。

5.2敏感詞用拼音或部分用拼音代替

兩種解決思路：一種是最簡單是遇到這類問題，先豐富敏感詞庫進行快速解決。第二種是判斷時將敏感詞轉換為拼音進行對比判斷。

不過目前這兩種方案均不能徹底很好的解決該問題，此類問題還需進一步研究。

到此這篇關于Java DFA算法案例詳解的文章就介紹到這了,更多相關Java DFA算法內容請搜索好吧啦網以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持好吧啦網！

Java

上一條：Java BigDecimal除法精度和格式化輸出方式下一條：Java JNDI案例詳解

相關文章：

1. 八種Vue組件間通訊方式合集(推薦)2. GIT相關-IDEA/ECLIPSE工具配置的教程詳解3. idea設置代碼格式化的方法步驟4. JSP實現(xiàn)百萬富翁猜數(shù)字游戲5. ASP中if語句、select 、while循環(huán)的使用方法6. ASP實現(xiàn)加法驗證碼7. php bugs代碼審計基礎詳解8. UDDI FAQs9. 高德地圖WEB版基礎控件展示原創(chuàng)10. requestAnimationFrame定時動畫屏幕刷新率節(jié)流示例淺析

排行榜

					
					GIT相關-IDEA/ECLIPSE工具配置的教程詳解
八種Vue組件間通訊方式合集(推薦)
idea設置代碼格式化的方法步驟
原生Js實現(xiàn)的畫廊功能
Java跨平臺原理與虛擬機相關簡介
python 制作網站篩選工具(附源碼)
教你如何寫出可維護的JS代碼
JS面試題中深拷貝的實現(xiàn)講解
Spring 2.0 發(fā)布
IntelliJ IDEA創(chuàng)建web項目的方法
Spring data jpa的使用與詳解(復雜動態(tài)查詢及分頁，排序)