中文分詞的常見項目

函數描述:1。新單詞的自動識別。

詞典中不存在的詞可以自動識別，對詞典的依賴性小；

2.詞性輸出

分詞結果詞性豐富；

3.動態詞性輸出

分詞結果中的詞性不是固定的，會根據不同的語境賦予不同的詞性；

4.特殊單詞識別

比如化工、醫藥等行業詞匯、地名、品牌、媒體名稱等。；

5.智能模糊解算

根據內部規則，智能解決常見的分詞歧義問題；

6.多編碼識別

自動識別各種單碼，支持混合碼；

7.數量詞的優化

量詞的自動識別；性能介紹:處理器:AMD速龍II x2 250 3GHZ。

單線程大於833KB/s，多線程安全。壹個PHP函數實現中文分詞。為了使分詞更容易，請使用下圖:

基於Java的開源中文分詞組件Paoding，提供lucene和solr接口，高效可擴展。引入隱喻，采用完全面向對象設計，概念超前。

效率高:在PIII 1G內存的個人機器上，1秒可以準確切分1萬個漢字。

無限數量的字典文件用於有效地分割文章，以便可以對單詞進行分類和定義。

能夠合理分析生詞。

僅支持Java語言。MMSEG4J是基於Java的開源中文分詞組件，提供lucene和solr接口:

1.MMSeg4J使用蔡誌浩的MMSeg算法實現中文分詞，並實現lucene的analyzer和solr的TokenizerFactory，方便其在Lucene和Solr中使用。

2.MMSEG算法有簡單和復雜兩種分詞方法，都是基於正最大匹配。復雜的添加了四個規則來擔心。官方表示單詞正確識別率達到98.41%。Mmseg4j實現了這兩種分詞算法。盤古分詞是壹個開源的中文分詞組件。net平臺，它提供了lucene(net版)和HubbleDotNet。

高效:Core Duo 1.8 GHz單線程分詞速度390K字符/秒。

準確率:盤古分詞采用詞典和統計相結合的分詞算法，分詞準確率高。

功能:盤古分詞提供了中文姓名識別、簡繁分詞、多詞分詞、英文詞根、強制壹元分詞、詞頻優先分詞、停用詞過濾、英文專有名詞提取等壹系列功能。Jcseg是Java開發的中文分詞器，采用流行的mmseg算法實現。

1。Mmseg四種過濾算法，分詞準確率達到98.4%以上。

2。支持自定義詞庫。在詞庫文件夾中，可以隨意添加/刪除/更改詞庫和詞庫內容，對詞庫進行分類，集成了現代漢語詞典和cc-cedict詞典。

3。詞條拼音和同義詞支持，jcseg用拼音標註所有詞條，詞條可以添加壹組同義詞，jcseg會自動將拼音和同義詞添加到分詞結果中。

4。中文數詞和分數識別，比如:“四五十人在此，三十分之壹。”“40-50”和“30日”，jcseg會自動轉換成相應的阿拉伯數字。

5。支持中英文混合詞的識別。比如:b超，x光。

6。支持基本單詞單位的識別，比如2012。

7。良好的英文支持，自動識別郵件，網站，分數，小數，百分比。

8。智能圓角半角轉換加工。

9。特殊字母識別:例如:I，II。

10。特殊號碼識別:例如:①、⑩。

11。匹配標點符號內容提取:比如最好的java書《Java編程思想》《想象力杯黑客技術大賽》，標點符號標註的內容。

12。智能中文姓名識別。中文姓名識別正確率達到94%以上。

Jcseg佩戴配置文檔jcseg.properties，妳可以使用文本編輯器編輯它的選項，配置適合不同應用的分詞應用。比如最大匹配字數，是否開啟中文姓名識別，是否加載詞條拼音，是否加載詞條同義詞。Friso是用C語言開發的中文分詞器，采用流行的mmseg算法實現。完全基於模塊化設計和實現，可以很容易的移植到其他程序中，比如MySQL，PHP等等。並提供了php中文分詞擴展robbe。

1。僅支持UTF-8編碼。源代碼無需修改即可在各種平臺上編譯和使用。加載20萬條目後，內存占用穩定在14M。。

2。Mmseg四種過濾算法，分詞準確率達到98.41%。

3。支持自定義詞庫。在dict文件夾中，可以隨意添加/刪除/更改敘詞表和詞庫條目，對敘詞表進行分類。

4。詞庫使用jcseg的簡化詞庫，即friso的Java版本。

5。支持中英文混合詞的識別。比如:C語言，IC卡。

7。良好的英語支持，電子郵件，網站，小數，分數，百分比。

8。支持識別阿拉伯數字的基本單個單位，如2012，5噸，120斤。

9。自動英文圓角/半角，大寫/小寫轉換。

並且具有很高的分詞速度:簡單模式:3.7M/ s，復雜模式:1.8M/ s..

上一篇:反腐倡廉的文章

下一篇:買了假玻尿酸註射。雖然沒有不良反應，但是很後悔目前想做成分檢測。

羅特韋爾犬比德國牧羊犬更野性。羅威納犬的訓練方法是什麽？