Jcseg分词器官方版是一款简单且超级好用的轻量级Java分词工具,它可以帮助用户轻松提取关键词和关键词,并为Java的使用提供帮助,该软件还提供了一个基于Jetty的Web服务器,可以满足用户的各种Java编程功能要求并支持自定义同义词库,在lexicon文件夹中,您可以随意添加/删除/更改词库和词库的内容,并对词库进行分类,支持词库的多目录加载,在配置lexicon.path中,使用';'分离多个词库目录,将词库分为简化/传统/简化和传统混合词库:它可以特别适用于简化的简化切分,传统的切分以及简化和传统的混合切分,并且可以使用以下同义词Jcseg实现了简体和繁体的相互检索,还提供了两个简单的同义词库管理工具,可以在简体中文和繁体中文之间进行转换并合并同义词库。
软件特色
中英文同义词加法/同义词匹配+汉语拼音加法。同义词库将“现代汉语词典”和cc-cedict词典中的条目集成在一起,并根据cc-cedict词典用汉语拼音标记条目,并根据“汉语同义词词典”用同义词标记条目(没完成) 。更改jcseg.properties配置文件可以在分词过程中将拼音和同义词添加到分词结果中。
中文数字和中文分数识别例如:“这里有一百五十人,四十人。”分为“一百五十”和“一百四十”。 Jcseg会自动将其转换为阿拉伯数字,并将其添加到分词结果中。如:150、1 / 40。
支持识别中英文混合词和中英文混合词(保持词典可以识别任何组合)。例如:B超检查,X射线,卡拉OK,七渡KTV,Do啦A梦。
支持类似英语的中文分段,并使用mmseg算法消除歧义,例如:“ openarkcompiler”将分段为:“ open ark编译器”,此功能也可以关闭。
软件功能
中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。
关键字提取:基于textRank算法。
关键短语提取:基于textRank算法。
关键句子提取:基于textRank算法。
文章自动摘要:基于BM25+textRank算法。
自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。
命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。
Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。