這部分內容并非個人收集整理,而是網友辛苦整理,在此表示感謝!
接下來,在此基礎上發現好的分詞工具再進行完善!
?
中文分詞工具:
1) MSRSeg from Microsoft Research
http://research.microsoft.com/~jfgao/
2) Hylanda
http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3) HIT
http://ir.hit.edu.cn/phpwebsite/index.php?module=announce&ANN_user_op=view&ANN_id=106
4) NEUCSP from Northeast University, China
http://www.nlplab.com/download/CIP/neucsp.zip
5) ICTCLAS from Chinese Academy of Science, China
http://www.nlp.org.cn/project/project.php?proj_id=6
6)分詞工具鏈接
http://www.chinesecomputing.com/nlp/segment.html
中文信息處理基礎
http://ccl.pku.edu.cn/doubtfire/Course/Chinese%20Information%20Processing/2002_2003_1.htm
?
-----------------不同來源分割--------------------
?
1)計算所漢語詞法分析系統 ICTCLAS
中國科學院計算技術研究所在多年研究基礎上,耗時一年研制出了基于多層隱馬模型的漢
語詞法分析系統 ICTCLAS (Institute of Computing Technology, Chinese Lexical
Analysis System),該系統的功能有:中文分詞;詞性標注;未登錄詞識別。分詞正確率
高達97.58%(最近的973專家組評測結果),基于角色標注的未登錄詞識別能取得高于90%
召回率,其中中國人名的識別召回率接近98%,分詞和詞性標注處理速度為31.5KB/s。
ICTCLAS 和計算所其他14項免費發布的成果被中外媒體廣泛地報道,國內很多免費的中文
分詞模塊都或多或少的參考過ICTCLAS的代碼。
下載頁面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 語言寫成的,現在主流的開發工具用起來不太方便,于是有一些熱
心的程序員把 ICTCLAS 改為 Java 和 C# 等其他語言。
fenci,Java 的 ICTCLAS,下載頁面:
http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
不過傳說代碼還是很難讀懂的,一群high IQ的人寫出來的,所以除非專門做分詞的值得去
研究,如果分詞只是一個步驟的話還是不要碰,而且現在的3.0已經變成商業的了,搞研究的
人可以試用一個月,商用的還是算了.Free的3.0beta和1.0幾乎沒區別,再者狂bug不止,遇
到有些網頁就分不過去,測試了幾個語料庫都是比較郁悶,速度在 30kb/s,還是比較慢的.
這個除非買商業版的,雖然做的很好,還是提醒以后不要在這個上面浪費時間了.
(2)海量智能分詞研究版
海量智能計算技術研究中心為了使中文信息處理領域的研究者們能夠共同分享海量智能中
心的研究成果,共同提高中文信息處理水平,特此發布《海量智能分詞研究版》,供專家、
學者和愛好者進行研究。
下載頁面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
海量的分詞做的不錯,不過研究版的速度也是不堪的,都可以理解.這個速度就更慢了,而且
只支持window開發.
(3)CSW中文智能分詞組件
運行環境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微軟的開發語言中調用。
簡介: CSW中文智能分詞DLL組件,可將一段文本自動的按常規漢語詞組進行拆分,并以指
定方式進行分隔,且可對其拆分后的詞組進行語義、詞頻標注。其廣范應用于各行各業的
信息資料檢索、分析。
下載頁面: http://www.vgoogle.net/
這個如何出現如下錯誤"您當前使用的CSW中文分詞組件5.0(標準C++版)已超過有效期,請
訪問我們網站 www.vgoogle.net 獲取最新版本或取得使用許可授權!".把系統時間調一下,
調到2008年4月1號之前.效果還可以,java下的20kb/s.
(4) C# 寫的中文分詞組件--雨痕
據作者介紹,一個 DLL 文件,可以做中英文分詞組件。完全C#托管代碼編寫,獨立開發。
下載頁面: http://www.rainsts.net/article.asp?id=48
這個現在也已經不再發行了,何況是windows下.net開發的.
(5)ktdictseg也是c#開發的
http://www.hbdev.cn/tech/SrcShow.asp?Src_ID=26
ktdictseg 簡介: ktdictseg 是由kaitoo搜索開發的一款基于字典的簡單中英文分詞算法
* 主要功能: 中英文分詞,未登錄詞識別,多元歧義自動識別,全角字符識別能力
* 主要性能指標:
* 分詞準確度:90%以上(有待專家的權威評測)
* 處理速度: 600kbytes/s
(6)chseg
這個速度大約是0.5m/s.還是相當不錯的,不過沒有詞性標注部分
(7)je-anlysis的分詞(java實現的)
1. 分詞效率: 每秒30萬字(測試環境迅馳1.6,第一次分詞需要1-2秒加載詞典)
2. 運行環境: Lucene 2.0
3. 免費安裝使用傳播,無限制商業應用,但暫不開源,也不提供任何保證
4. 優點
全面支持Lucene 2.0
增強了詞典維護的API
增加了商品編碼的匹配
增加了Mail地址的匹配
實現了詞尾消歧算法第二層的過濾
整理優化了詞庫
支持詞典的動態擴展
支持中文數字的匹配(如:二零零六)
數量詞采用“n”作為數字通配符
優化詞典結構以便修改調整
支持英文、數字、中文(簡體)混合分詞
常用的數量和人名的匹配
超過22萬詞的詞庫整理
實現正向最大匹配算法
支持分詞粒度控制
(8)吳建強的分詞--java實現
1. ?? 分詞的算法
分詞算法采用的是最大匹配算法,按從左至右正向最大匹配和從右到左反向最大匹配,當
兩種分詞結果不一致時,按最少切分原則,取切分詞數最少的一種,如果兩種分詞結果切
分的詞數一樣,取反向最大匹配作為分詞的結果,這種分詞的結果準確率在99%以上,可
以滿足一般的應用和需求。
2. ?? 程序設計
建立一個字典,字典由多個子字典組成,每個子字典的單詞字數相同且已經排序,以獨立
文件的形式存儲于磁盤,字典支持新單詞的導入。對于要一段文字,首先過濾一次,把源
文件按標點、英文字母、數字、其它符號分解成一個List,list中若包含中文的為要分詞
的最小單位,如:你好,你是哪的ABC人,過濾的結果為 你好/,/你是哪的/ABC/人,要
切分的部分有 你好 你是哪的 人 三部分,然后按分詞算法對這三個部分切分。
3. ?? 使用方法
首先導入詞庫,詞庫是純文本文件,每個單詞一行,然后可以開始分詞,具體運行參見
com.xq.Execute.java。詞庫用的是“中文詞庫素材”,大家可以在網上搜到.
4. ?? 測試
沒有字典時,導入“中文詞庫素材3.2\詞庫\標準詞庫\去除拼音字母的標準詞庫213663詞
條.TXT”這個文件用時17890毫秒,導入單詞數212512,z在這個字典上再導入“中文詞庫素
材3.2\詞庫\專業擴充詞庫\區縣地名(大詞庫不包含).txt”用時500毫秒,導入單詞:
1747,速度還是比較快的。對一篇兩千字的文章分詞用時110毫秒,準確率在99%以上,當
詞庫越完善,準確率會更高。總體來看,導入詞庫、分詞速度和準確度對于一般的應用是
可接受的。測試電腦配置:P43.2,1G內存
-----------------不同來源分割--------------------
張文煥制作的詞庫工具有:
①拼音加加詞庫調頻 Ver1.07:本工具可以根據導入的拼音加加詞庫分析指定的文章統計詞頻,根據詞頻對詞條重新排序后導出優化的詞庫。
②大分詞 Ver1.03:
③拼音加加詞庫注音 Ver1.20b:本程序是一個用來給拼音加加詞庫中的詞條多音字進行注音及優化、修正的小工具。
④拼音加加詞庫排序 Ver1.04
⑤拼音加加詞庫整理 Ver1.00b
⑥拼音加加詞庫篩選 Ver1.06
⑦拼音加加詞庫固頂 Ver1.02
⑧拼音加加詞庫更新 Ver1.05
孫百川制作:
詞組工具
US01制作:
加加詞庫維護工具
注:這些工具都可以在張老師的“加加論壇”下載到。( http://bbs.jjol.cn/showthread.php?t=4399 )
?
相關閱讀:
http://hi.baidu.com/guoliqiang2006/blog/item/5c2b8939184a27cad562254d.html (我對nutch中文分詞工具的評價)
http://www.webryan.cn/2009/04/something-about-chinese-seg/ (關于中文分詞的一些瑣碎資料 | Ryan's Blog (郭亨的博客))
更多文章、技術交流、商務合作、聯系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
