0717-7821348
爱彩人彩票网走势图

爱彩人彩票网走势图

您现在的位置: 首页 > 爱彩人彩票网走势图
双色球爱彩人彩票网-Java 开源中文分词器 Jcseg
2019-07-13 22:45:53

Jcseg 是什么?

Jcseg 是根据 mmseg 算法的一个轻量级开源中文分词器,一同集成了要害字提取,要害短语提取,要害语句提取和文章主动摘要等功用,而且供给了最新版别的 lucene, solr, elasticsearch 的分词接口。Jcseg 自带了一个 jcseg.properties 文件用于快速装备而得到合适不同场合的分词运用,例如:最大匹配词长、是否敞开中文人名辨认、是否追加拼音、是否追加近义词等。

Jcseg 中心功用:

  • 中文分词:mmseg 算法 + Jcseg 首创的优化算法。
  • 要害字提取:根据textRank算法。
  • 要害短语提取:根据textRank算法。
  • 要害语句提取:根据textRank算法。
  • 文章主动摘要:根据BM25+textRank算法。
  • 主动词性标示:现在仅仅根据词库,作用不是很抱负。
  • Restful api:嵌入 jetty 供给了一个肯定高性能的 server 双色球爱彩人彩票网-Java 开源中文分词器 Jcseg模块,包括悉数功用的 http 接口,标准化 json 输出格局,便利各种言语客户端直接调用。

Jcseg 中文分词:

四种切分形式:

  • 简易形式:FMM 算法,合适速度要求场合
  • 杂乱形式:MMSEG 四种过滤算法,具有较高的歧义去除,分词准确率到达了98.41%
  • 检测形式:只回来词库中已有的词条,很合适某些运用场合
  • 检索形式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字辨认等智能功用)其他与杂乱形式共同(英文,组合词等)
  • 分隔符形式:依照给定的字符切分词条,默许是空格,特定场合的运用
  • NLP 形式:承继自杂乱形式,更改了数字,单位等词条的组合方法,增加电子邮件,大陆手机号码,网址,人名,地名,钱银等以及无限种自定义实体的辨认与回来
  1. 支撑自定义词库。在 lexicon 文件夹下,能够随意增加/删去/更改词库和词库内容,而且对词库进行了分类。
  2. 支撑词库多目录加载,装备 lexicon.path 中运用';'离隔多个词库目录。
  3. 词库分为简体/繁体/简繁体混合词库:能够专门适用于简体切分、繁体切分、简繁体混合切分,而且能够运用下面说到的近义词完结,简繁体的彼此检索,Jcseg 一同供给了词库两个简略的词库管理工具来进行简繁体的转化和词库的兼并。
  4. 中英文近义词追加/近义词匹配 + 中文词条拼音追加。词库整合了《现代汉语词典》和 cc-cedict 辞典中的词条,而且根据 cc-cedict 词典为词条标上了拼音,根双色球爱彩人彩票网-Java 开源中文分词器 Jcseg据《中华近义词词典》为词条标上了近义词(没有完结)。更改 jcseg.properties 装备文档能够在分词的时分参加拼音和近义词到分词成果中。
  5. 中文数字和中文分数辨认,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。而且 Jcseg 会主动将其转化为阿双色球爱彩人彩票网-Java 开源中文分词器 Jcseg拉伯数字参加到分词成果中。如:150, 1/40。
  6. 支撑中英混合词和英中混合词的辨认(保护词库能够辨认任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都ktv, 哆啦a梦。
  7. 更好的英文支撑,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的辨认。
  8. 自定义切分保存标点。例如: 保存 &,就能够辨认 k&r 这种杂乱词条。
  9. 杂乱英文切分红果的二次切分:能够保存原组合,一同能够防止杂乱切分带来的检索命中率下降的状况,例如QQ2013会被切分红: qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分红:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
  10. 支撑阿拉伯数字/小数/中文数字根本单字单位的辨认,例如2012年,1.75米,38.6℃,五折,而且 Jcseg 会将其转化为“5折”参加分词成果中。
  11. 智能圆角半角, 英文大小写转化。
  12. 特别字母辨认:例如:Ⅰ,Ⅱ;特别数字辨认:例如:①,⑩。
  13. 配对标点内容提取:例如:最好的 Java 书《java编程思维》,‘想象杯黑客技能大赛’,被《,‘,“,『标点符号的内容。(1.6.8版开端支撑)。
  14. 智能中文人名/外文翻译人名辨认。中文人名辨认正确率达 94% 以上。(中文人名能够保护 lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex 来进步准确率),(引进规矩和词性后会到达 98% 以上的辨认正确率)。
  15. 主动中英文中止词过滤功用(需要在 jcseg.properties 中敞开该选项,lex-stopwords.lex 为中止词词库)。
  16. 词库更新主动加载功用, 敞开一个看护线程守时的检测双色球爱彩人彩票网-Java 开源中文分词器 Jcseg词库的更新而且加载。
  17. 主动词性标示(现在根据词库)。
  18. 主动实体的辨认,默许支撑:电子邮件,网址,大陆手机号码,地名,人名,钱银等;词库中能够自定义各种实体而且再切分中回来。

Jcseg 快速体会:

终端测验:

  1. cd 到 Jcseg 根目录。
  2. ant all(或许运用 maven 编译)
  3. 运转:java -jar jcseg-core-{version}.jar
  4. 你将看到如下的终端界面
  5. 在光标处输入文本开端测验
+--------Jcseg chinese word tokenizer demo---------------+
|- @Author chenxin |
|- :seg_mode : switch to specified tokenizer mode. |
|- (:complex,:simple,:search,:detect,:delimiter,:NLP) |
|- :keywords : switch to keywords extract mode. |
|- :keyphrase : switch to keyphrase extract mode. |
|- :sentence : switch to sentence extract mode. |
|- :summary : switch to summary extract mode. |
|- :help : print this help menu. |
|- :quit : to exit the program. |
+--------------------------------------------------------+
jcseg~tokenizer:complex>>

测验样板:

分词文本

歧义和近义词:研讨生命来源,混合词: 做B超查看身体,x射线实质是什么,今日去奇都ktv唱卡拉ok去,哆啦a梦是一个动漫中的主角,单位和全角: 2009年8月6日开端大学之旅,岳阳今日的气温为38.6℃, 也便是101.48℉, 中文数字/分数: 你分三十分之二, 小陈拿三十分之五,剩余的三十分之二十三悉数是我的,那是一九九八年前的事了,四川麻辣烫很好吃,五四运动留下的五四精力。笔记本五折包邮赔本大促销。人名辨认: 我是陈鑫,也是jcseg的作者,三国时期的诸葛亮是个天才,咱们一同给刘翔加油,罗志高振奋极了由于老吴送了他一台笔记本。外文名辨认:冰岛时刻7月1日,正在当地拍片的汤姆克鲁斯经过发言人供认,他与第三任妻子凯蒂赫尔墨斯(榜首二任妻子分别为咪咪罗杰斯、妮可基德曼)的婚姻行将完毕。配对标点: 本次『想象杯』黑客技能大赛的得主为电信09-2BF的张三,奖赏C++程序设计言语一书和【想象网络】的『PHP教程』一套。特别字母: 【Ⅰ】(Ⅱ),英文数字: 

分词成果:

歧义/n 和/o 近义词/n :/w 研讨/vn 揣摩/vn 研讨/vn 研究/vn 生命/n 来源/n ,/w 混合词 :/w 做/v b超/n 查看/vn 身体/n ,/w x射线/n x光线/n 实质/n 是/a 什么/n ,/w 今日/t 去/q 奇都ktv/nz 唱/n 卡拉ok/nz 去/q ,/w 哆啦a梦/nz 是/a 一个/q 动漫/n 中/q 的/u 主角/n ,/w 单位/n 和/o 全角/nz :/w 2009年/m 8月/m 6日/m 开端/n 大学/n 之旅 ,/w 岳阳/ns 今日/t 的/u 气温/n 为/u 38.6℃/m ,/w 也便是/v 101.48℉/m ,/w 中文/n 国语/n 数字/n //w 分数/n :/w 你/r 分/h 三十分之二/m ,/w 小陈/nr 拿/nh 三十分之五/m ,/w 剩余/v 的/u 三十分之二十三/m 悉数/a 是/a 我的/nt ,/w 那是/c 一九九八年/m 1998年/m 前/v 的/u 事/i 了/i ,/w 四川/ns 麻辣烫/n 很/m 好吃/v ,/w 五四运动/nz 留下/v 的/u 五四/m 54/m 精力/n 。/w 笔记本/n 五折/m 5折/m 包邮 赔本/v 大促销 促销 。/w 人名/n 辨认/v :/w 我/r 是/a 陈鑫/nr ,/w 也/e 是/a jcseg/en 的/u 作者/n ,/w 三国/mq 时期/n 的/u 诸葛亮/nr 是个 天才/n ,/w 咱们/r 一同/d 给/v 刘翔/nr 加油/v ,/w 罗志高/nr 振奋/v 极了/u 由于/c 老吴/nr 送了 他/r 一台 笔记本/n 。/w 外文/n 名/j 辨认/v :/w 冰岛/ns 时刻/n 7月/m 1日/m ,/w 正在/u 当地/s 拍片/vi 的/u 汤姆克鲁斯/nr 阿汤哥/nr 经过/v 发言人/n 供认/v ,/w 他/r 与/u 第三/m 任/q 妻子/n 凯双色球爱彩人彩票网-Java 开源中文分词器 Jcseg蒂赫尔墨斯/nr (/w 榜首/a 二/j 任/q 妻子/n 分别为 咪咪罗杰斯/nr 、/w 妮可基德曼/nr )/w 的/u 婚姻/n 行将/d 完毕/v 。/w 配对/v 标点/n :/w 本次/r 『/w 想象杯/nz 』/w 黑客/n 技能/n 大赛/vn 的/u 得主/n 为/u 电信/nt 09/en -/w bf/en 2bf/en 的/u 张三/nr ,/w 奖赏/vn c++/en 程序设计/gi 言语卖报歌/n 一书/ns 和/o 【/w 想象网络/nz 】/w 的/u 『/w PHP教程/nz 』/w 一套/m 。/w 特别/a 字母/n :/w 【/w Ⅰ/nz 】/w (/w Ⅱ/m )/w ,/w 英文/n 英语/n 数字/n :/w bug/en report/en chenxin/en 619315/en gmail/en com/en chenxin619315@gmail.com/en or/en visit/en http/en :/w //w //w code/en google/en com/en code.google.com/en //w p/en //w jcseg/en ,/w we/en all/en admire/en appreciate/en like/en love/en enjoy/en the/en hacker/en spirit/en mind/en !/w 特别/a 数字/n :/w ①/m ⑩/m ⑽/m ㈩/m ./w