jcseg
jcseg
jcseg是一款由Java开发的开源中文分词器,采用mmseg算法实现。它作为一款独立的分词组件,不仅适用于Lucene,还提供有相应的分词接口。jcseg遵循Apache授权协议,以Java语言编写,可在不同操作系统上运行。
功能特色
jcseg具有多种独特的功能特性,包括:
1. mmseg四种过滤算法,分词准确率达到98.41%。
2. 支持自定义词库,在jcseg源码中的lexicon文件夹下,用户可以自由地添加、删除或修改词库及其内容,并对词库进行分类管理。
3. 词库集成了《现代汉语词典》和cc-cedict辞典中的词条,并根据cc-cedict词典为词条标注拼音,同时根据《中华同义词词典》为词条标注同义词(未完成)。通过修改jcseg.properties配置文件,用户可以选择在分词过程中包含拼音和同义词。
4. 中文数字和中文分数识别,能够将文本中的中文数字和分数自动转换为阿拉伯数字并加入分词结果中。
5. 支持中英混合词的识别,如"B超", "x射线"等。
6. 更好的英文支持,能够识别电子邮件、网址、小数、分数、百分数以及字母和标点符号组成的词汇,如"C++", "c#"等。
7. 支持阿拉伯/中文数字基本单字单位的识别,如"2012年", "五折"等,并能自动转换为"5折"的形式。
8. 自动处理圆角/半角字符和大小写字母的转换。
9. 特殊字母识别,如"Ⅰ", "Ⅱ"等。
10. 特殊数字识别,如"①", "⑩"等。
11. 提取配对标点内容,如"《java编程思想》", "'畅想杯黑客技术大赛'"等。
12. 智能中文人名识别,识别正确率超过94%,并通过维护相关词库文件提升准确性。
分词速度
在特定的测试环境下,jcseg的分词速度表现出色,具体数据如下:
Simple模式:1366058字/秒,3774.5KB/秒。
Complex模式:479338字/秒,1324.4KB/秒。
配置信息
jcseg提供了丰富的配置选项,允许用户根据实际需求调整分词行为。这些配置选项记录在jcseg.properties文件中,涵盖了词性的加载、拼音和同义词的支持、中文人名识别等多个方面。
参考资料
java开源中文分词-jcseg.51CTO博客.2024-10-29
切词框架jcseg,入门.CSDN博客.2024-10-29
目录
概述
功能特色
分词速度
配置信息
参考资料