詞典中不存在的詞可以自動識別,對詞典的依賴性小;
2.詞性輸出
分詞結果詞性豐富;
3.動態詞性輸出
分詞結果中的詞性不是固定的,會根據不同的語境賦予不同的詞性;
4.特殊單詞識別
比如化工、醫藥等行業詞匯、地名、品牌、媒體名稱等。;
5.智能模糊解算
根據內部規則,智能解決常見的分詞歧義問題;
6.多編碼識別
自動識別各種單碼,支持混合碼;
7.數量詞的優化
量詞的自動識別;性能介紹:處理器:AMD速龍II x2 250 3GHZ。
單線程大於833KB/s,多線程安全。壹個PHP函數實現中文分詞。為了使分詞更容易,請使用下圖:
基於Java的開源中文分詞組件Paoding,提供lucene和solr接口,高效可擴展。引入隱喻,采用完全面向對象設計,概念超前。
效率高:在PIII 1G內存的個人機器上,1秒可以準確切分1萬個漢字。
無限數量的字典文件用於有效地分割文章,以便可以對單詞進行分類和定義。
能夠合理分析生詞。
僅支持Java語言。MMSEG4J是基於Java的開源中文分詞組件,提供lucene和solr接口:
1.MMSeg4J使用蔡誌浩的MMSeg算法實現中文分詞,並實現lucene的analyzer和solr的TokenizerFactory,方便其在Lucene和Solr中使用。
2.MMSEG算法有簡單和復雜兩種分詞方法,都是基於正最大匹配。復雜的添加了四個規則來擔心。官方表示單詞正確識別率達到98.41%。Mmseg4j實現了這兩種分詞算法。盤古分詞是壹個開源的中文分詞組件。net平臺,它提供了lucene(net版)和HubbleDotNet。
高效:Core Duo 1.8 GHz單線程分詞速度390K字符/秒。
準確率:盤古分詞采用詞典和統計相結合的分詞算法,分詞準確率高。
功能:盤古分詞提供了中文姓名識別、簡繁分詞、多詞分詞、英文詞根、強制壹元分詞、詞頻優先分詞、停用詞過濾、英文專有名詞提取等壹系列功能。Jcseg是Java開發的中文分詞器,采用流行的mmseg算法實現。
1。Mmseg四種過濾算法,分詞準確率達到98.4%以上。
2。支持自定義詞庫。在詞庫文件夾中,可以隨意添加/刪除/更改詞庫和詞庫內容,對詞庫進行分類,集成了現代漢語詞典和cc-cedict詞典。
3。詞條拼音和同義詞支持,jcseg用拼音標註所有詞條,詞條可以添加壹組同義詞,jcseg會自動將拼音和同義詞添加到分詞結果中。
4。中文數詞和分數識別,比如:“四五十人在此,三十分之壹。”“40-50”和“30日”,jcseg會自動轉換成相應的阿拉伯數字。
5。支持中英文混合詞的識別。比如:b超,x光。
6。支持基本單詞單位的識別,比如2012。
7。良好的英文支持,自動識別郵件,網站,分數,小數,百分比。
8。智能圓角半角轉換加工。
9。特殊字母識別:例如:I,II。
10。特殊號碼識別:例如:①、⑩。
11。匹配標點符號內容提取:比如最好的java書《Java編程思想》《想象力杯黑客技術大賽》,標點符號標註的內容。
12。智能中文姓名識別。中文姓名識別正確率達到94%以上。
Jcseg佩戴配置文檔jcseg.properties,妳可以使用文本編輯器編輯它的選項,配置適合不同應用的分詞應用。比如最大匹配字數,是否開啟中文姓名識別,是否加載詞條拼音,是否加載詞條同義詞。Friso是用C語言開發的中文分詞器,采用流行的mmseg算法實現。完全基於模塊化設計和實現,可以很容易的移植到其他程序中,比如MySQL,PHP等等。並提供了php中文分詞擴展robbe。
1。僅支持UTF-8編碼。源代碼無需修改即可在各種平臺上編譯和使用。加載20萬條目後,內存占用穩定在14M。。
2。Mmseg四種過濾算法,分詞準確率達到98.41%。
3。支持自定義詞庫。在dict文件夾中,可以隨意添加/刪除/更改敘詞表和詞庫條目,對敘詞表進行分類。
4。詞庫使用jcseg的簡化詞庫,即friso的Java版本。
5。支持中英文混合詞的識別。比如:C語言,IC卡。
7。良好的英語支持,電子郵件,網站,小數,分數,百分比。
8。支持識別阿拉伯數字的基本單個單位,如2012,5噸,120斤。
9。自動英文圓角/半角,大寫/小寫轉換。
並且具有很高的分詞速度:簡單模式:3.7M/ s,復雜模式:1.8M/ s..