首页 > PC > 网页源码
Jcseg(Java中文分词器)

Jcseg(Java中文分词器)

大小:4.9MB
类别:网页源码
官方
免费
安全
纠错

检测到是安卓设备,电脑版软件不适合移动端

  • 简介
  • 相关教程
  • 相关合集
  • 评论
Jcseg(Java中文分词器)
简介

Jcseg是根据mmseg优化算法的一个轻量Java中文分词器,另外集成化了关键词获取,重要语句获取,重要语句获取和文章内容全自动引言等作用,而且出示了一个根据Jetty的web服务器,便捷各种語言立即http启用,另外出示了最新版的lucene,solr和elasticsearch的检索分词插口!

软件功能

  Jcseg关键作用:

  中文分词:mmseg优化算法 Jcseg 独创性的优化计算方法,七种分割方式。

  关键词获取:根据textRank优化算法。

  重要语句获取:根据textRank优化算法。

  重要语句获取:根据textRank优化算法。

  文章内容全自动引言:根据BM25 textRank优化算法。

  全自动词性标注:根据词库 (统计分析模棱两可除去方案),现阶段实际效果并不是很理想化,对词性标注結果规定较高的运用不建议应用。

  取名实体线标明:根据词库 (统计分析模棱两可除去方案),电子邮箱,网站地址,内地手机号,地名大全,人名,贷币,datetime時间,长短,总面积,距离单位等。

  Restful api:置入jetty出示了一个肯定性能卓越的server控制模块,包括所有作用的http插口,规范化json輸出文件格式,便捷各种各样語言手机客户端立即启用。

  Jcseg中文分词:

  七种分割方式:

  简易模式:FMM优化算法,合适速率规定场所。

  繁杂方式:MMSEG四种过虑优化算法,具备较高的模棱两可除去,分词准确度做到了98.41%。

  检验方式:只回到词库中现有的词条,很合适一些运用场所。

  数最多方式:粗粒度分割,专为查找为之,除开中文解决外(不具有中文的人名,数据识别等智能化作用)别的与繁杂方式一致(英语,组成词等)。

  分隔符方式:依照给出的标识符分割词条,默认设置是空格符,特定场合的运用。

  NLP方式:承继自繁杂方式,变更了数据,企业等词条的组成方法,提升电子邮箱,内地手机号,网站地址,人名,地名大全,贷币等及其无尽种自定实体线的识别与回到。

  n-gram方式:CJK和拉丁系标识符的通用性n-gram分割完成。

软件特色

  适用自定词库。在lexicon文件夹名称下,能够 随意加上/删掉/变更词库和词库內容,而且对词库开展了归类。

  适用词库多文件目录载入. 配备lexicon.path中应用';'分隔好几个词库文件目录.

  词库分成接下来/繁体字/简繁体混和词库: 能够 专业适用接下来分割, 繁体字分割, 简繁体混和分割, 而且能够 运用下边提及的近义词完成,简繁体的互相查找, Jcseg另外出示了词库2个简易的词库可视化工具来开展简繁体的变换和词库的合拼。

  中英近义词增加/近义词配对 中文词条拼音字母增加.词库融合了《现代汉语词典》和cc-cedict辞典中的词条,而且根据cc-cedict字典为词条标上了拼音,根据《中华同义词词典》为词条标到了近义词(并未进行)。变更jcseg.properties配备文本文档能够 在分词的情况下加入拼音和近义词到分词結果中。

  中文数据和中文成绩识别,比如:"一百五十个人都来啦,四十分之一的人。"中的"一百五十"和"四十分之一"。而且 Jcseg会全自动将其变换为阿拉伯数添加到分词結果中。如:150, 1/40。

  适用英中混和词和英中混和词的识别(维护保养词库能够 识别一切一种组成)。比如:B超, x放射线, 拉卡ok, 奇都KTV, 哆啦a梦。

  支持英文的类中文分割,一样应用mmseg优化算法来清除模棱两可,比如:“openarkcompiler”会被切分为:“open ark compiler”,该作用还可以被关掉。

  更强的拉丁适用,电子邮箱,网站域名,小数,成绩,百分比,英文字母和标点符号组成词(比如C , c#)的识别。

  自定分割保存标点符号. 比如: 保存amp;, 就可以识别kamp;r这类繁杂词条。

  复杂英文分割結果的二次分割: 能够 保存原组成,另外能够 防止繁杂分割产生的查找准确率降低的状况,比如QQ2013会被切分为: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分为: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

  适用阿拉伯数/小数/中文数据基础一个字企业的识别,比如二0一二年,1.75米,38.6℃,五折,而且 Jcseg会将其变换为“半价”添加分词結果中。

  智能化圆弧半角, 英语大小写转换。

  特殊字母识别:比如:Ⅰ,Ⅱ;特殊数字识别:比如:①,⑩。

  匹配标点符号內容获取:比如:最好是的Java书《java编程思想》,‘想象杯网站渗透比赛’,被《,‘,“,『标点符号标识的內容。(1.6.8版刚开始适用)。

  智能化中文人名/外文文献翻译人名识别。中文人名识别准确率达94%之上。(中文人名能够 维护保养lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提升准确度),(引进标准和词性后会做到98%之上的识别准确率)。

  全自动中英终止词过虑作用(必须在jcseg.properties中打开该选择项,lex-stopwords.lex为终止词词库)。

  词库升级全自动载入作用, 打开一个守护线程定时执行的检验词库的升级而且载入(留意必须有相匹配词库文件目录下的的lex-autoload.todo文档的载入管理权限)。

  全自动词性标注(现阶段根据词库)。

  全自动实体线的识别,默认设置适用:电子邮箱,网站地址,内地手机号,地名大全,人名,贷币等;词库中能够 自定各种各样实体线而且再分割中回到。

软件信息

软件标签:
软件版本:V2.6.2官方版
更新时间:2025-02-19
软件大小:4.9MB
备案号:暂无
厂商:暂无
包名:暂无
应用权限:
查看
  • 程序写入外部存储

    -- 允许程序写入外部存储
  • 读取设备外部存储空间的文件

    -- 程序可以读取设备外部存储空间的文件
    -- 允许程序请求安装文件包
  • 获取额外的位置信息提供程序命令

    -- 允许程序访问额外的定位提供者指令
  • 访问SD卡文件系统

    -- 挂载、反挂载外部文件系统
  • 访问SD卡文件系统

    -- 挂载、反挂载外部文件系统
  • 查看WLAN连接

    -- 获取当前WiFi接入的状态以及WLAN热点的信息
  • 完全的网络访问权限

    -- 访问网络连接,可能产生GPRS流量
  • 连接WLAN网络和断开连接

    -- 改变WiFi状态
  • 修改系统设置

    -- 允许读写系统设置项
  • 查看网络连接

    -- 获取网络信息状态,如当前的网络连接是否有效
  • 收起
隐私说明:
查看
  • 我们严格遵守法律法规,遵循以下隐私保护原则,为您提供更加安全、可靠的服务:

  • 1、安全可靠:

    我们竭尽全力通过合理有效的信息安全技术及管理流程,防止您的信息泄露、损毁、丢失。
  • 2、自主选择:

    我们为您提供便利的信息管理选项,以便您做出合适的选择,管理您的个人信息
  • 3、保护通信秘密:

    我们严格遵照法律法规,保护您的通信秘密,为您提供安全的通信服务。
  • 4、合理必要:

    为了向您和其他用户提供更好的服务,我们仅收集必要的信息。
  • 5、清晰透明:

    我们努力使用简明易懂的表述,向您介绍隐私政策,以便您清晰地了解我们的信息处理方式。
  • 6、将隐私保护融入产品设计:

    我们在产品和服务研发、运营的各个环节,融入隐私保护的理念。
  • 本《隐私政策》主要向您说明:

    我们收集哪些信息 我们收集信息的用途 您所享有的权利
  • 希望您仔细阅读《隐私政策》

    为了让您有更好的体验、改善我们的服务或经您同意的其他用途,在符合相关法律法规的前提下,我们可能将通过某些服务所收集的信息用于我们的其他服务。例如,将您在使用我们某项服务时的信息,用于另一项服务中向您展示个性化的内容或广告、用于用户研究分析与统计等服务。
  • 若您使用服务,即表示您认同我们在本政策中所述内容。除另有约定外,本政策所用术语与《服务协议》中的术语具有相同的涵义。
  • 如您有问题,请联系我们。
  • 收起
类似软件
本类排行
近期大作

最新软件

相关合集 更多

相关教程

java主要是干嘛的?Java是什么Java到底能干嘛 深入Java核心 Java内存分配原理精讲 Java 删除Word目录 java删除文件和目录 eclipse怎么创建java项目?eclipse怎么新建Java文件 java生成word文档 最简单的java生成word文档方法

热搜标签

网友评论

添加表情
评论
举报

举报反馈

  • 色情
  • 版权
  • 反动
  • 暴力
  • 软件失效
  • 其他原因
提交反馈