HanLP分词命名实体提取详解

  • 时间:
  • 浏览:0
  • 来源:5分3DAPP下载_5分3DAPP官网

List<Term> termList=  HanLP.segment( word );

1.实体机构名识别(层叠HMM-Viterbi)

5.极速词典分词(速率单位快,精度一般)

分享一篇大神的关于hanlp分词命名实体提取的经验文章,文章中分享的内容略有一段时间(使用的hanlp版本比较老),最新一版的hanlp机会出来了,并并能去看看新版的hanlp在这方面有何提升!

目前,大次要招中标项目信息也有发布在各个网站上,什么都有有你这人人儿获取的主本来我 网络文本。网页中存在什么都有有与文本内容无关的信息,比如广告,导航栏,html、js代码,注释等等。文本清洗,本来我 通过正则匹配加含高有哪些干扰信息,抽取出干净的文本内容。

最后,根据“前文+特定实体+后文”正则匹配,得出提取的实体,如下图:

命名实体提取

招中标项目文本样式多变、内容复杂化,你这人人儿无法直接定位文本中的某一位置来提取实体。小编采用基于统计和基于规则相融合的机器学习最好的法律法律依据。

HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

1.最短路分词(Dijkstra精度机会足够,且速率单位比N最短快几倍)

文本预处理

5.地名识别(HMM-Viterbi)

林州市合涧镇刘家凹小流域2017年省级水土保持补偿费项目进行了公开招标";

3.音译人名识别(层叠隐马模型)

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,已经 利用有有哪些知识更好地组织信息的过程。对于文曾经 说,机会语言组织形式各异,表达最好的法律法律依据多样,文本上端提到的什么都有有次要,如人名、手机号、组织名、地名等都称之为实体。在工程领域,招投标文件里的有有哪些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出有有哪些实体,能有效提高工作速率单位和挖掘实体之间的潜在联系。

最后,利用你这人 规则在全文中进行模式匹配。利用投票原理,对匹配度高的规则分配高分,相反,匹配度低的规则赋予低分。已经 ,对所有匹配的规则进行分数排序,得到投票分数最高的规则,并从规则中剥离出特定实体,你这人 实体即为你这人人儿的目标实体。

System.out.println(termList.toString());

HanLP提供下列功能:

篇章理解

3.CRF分词(对新词较有效)

3.短语提取( 基于互信息和左右信息熵的短语提取)

2.简繁转换(繁体中文分词,简繁分歧词)

其次,利用有有哪些高频词汇构建出“前文+特定实体+后文”的规则。

 2. List<Term> termList = segment.seg(content);

2.中国人名识别(HMM-Viterbi)

去除标签、杂数据,得到的纯文本为:

作者:XiaoXiao_Yang77

2.N-最短路分词(与Dijkstra对比,D已够用)

[河南/ns, 大明/nz, 建设工程/nz, 管理/vn, 有限公司/nis, 受/v, 林州市/ns, 水土保持/gg, 生态/n, 建设/vn, 管理局/nis, 委托/vn, ,/w, 就/d, 林州市/ns, 合涧镇/ns, 刘家凹/nr, 小流域/nz, 2017/m, 年/qt, 省级/b, 水土保持/gg, 补偿费/n, 项目/n, 进行/vn, 了/ule, 公开招标/v]

 

6.用户自定义词典

1. Segment segment = HanLP.newSegment().enableOrganizationRecognize(true);

技术实施流程图

命名实体识别

2.自动摘要( TextRank自动摘要,提取关键励志的话 )

1.拼音转换( 多音字,声母,韵母,声调)

 

4.索引分词(长词切分,索引所有机会词)

得到的输出结果为:

中文分词(Chinese Word Segmentation) 指的是将曾经汉字序列切分成曾经曾经单独的词。分词本来我 将连续的字序列按照一定的规范重新组合成词序列的过程。一篇文本中也有所有词也有点痛 要,你这人人儿只需找出起到关键作用、决定文本主要内容的词进行分析即可。目前几大主流的分词技术可移步到这篇博客中:中文分词技术小结、几大分词引擎的介绍与比较

HanLP分词提供词性标注的功能,什么都有有调用分词接口后获得含高词性标注的单词集合。之类:

1.文本推荐(励志的话 级别,从一系列励志的话 中挑出与输入励志的话 /词语最之类的那一句)

简繁拼音转换

如下图:你这人人儿获得的文本是网络片段

1、文本清洗

1.关键词提取( TextRank关键词提取)

智能推荐

2.语义距离(基于《同义词词林扩展版》)

之类,招标单位的提取,你这人人儿统计出改实体出现的前文频率较高的为:招标人、招标单位、建设单位、采购人、采购单位、业主等,后文为:委托、招标等。通常出现有有哪些词汇的前后本来我 招标单位。已经 你这人人儿再根据你这人 词的词性,判断它否有有属于机构名、团体名。机会是机构团体名,则判定该单词为招标单位名称。曾经 ,就并能获得你这人人儿前要的实体。你这人实体的提取与此之类。

 

String word = "河南大明建设工程管理有限公司受林州市水土保持生态建设管理局委托,

首先,统计有有哪些实体出现的前后文单词和词性,并考虑你这人人之间的联系,概括出特定实体前后出现的高频词汇。

 

2、中文分词

7.标准分词(HMM-Viterbi)

4.日此人 名识别(层叠隐马模型)

每个词性代表有哪些并能参考 HanLP词性标注集

笔者采用的是HanLP分词工具。 

调用HanLP分词接口,得到下图的分词列表:

 

中文分词

猜你喜欢

阿里巴巴数据中心双11守夜人:把机器当“媳妇”,愿做亿万网友背后的男人

相比跟人的交流,布赫与机器“对话”的时间更久。虽说有了“智能设备大脑”随时监控情况汇报,但布赫还是老会 会用最古老的“望布赫看不都都可否 互联网盛宴肩头的亿万网民,甚至体

2020-02-18

游客77bx3by63sngw的主页

云栖号小编在此^o^文章:253丨粉丝:1052丨话题:0TA还没法发布过内容~暂未提供暂无

2020-02-18

和前男友分手了,他不删我微信,但朋友圈把我屏蔽了,发微信也不回,这是什么意思?

下载百度知道APP,抢鲜体验他几块意思我想知道,怎么才能 让我亲身经历过有十个 多和你说的一模一样,也不 把你当备胎,一面搂着现女友秀恩爱,一面知道不你都时需彻底

2020-02-18

科学在别人的心里也最重要的英文

下载百度知道APP,抢鲜体验为你推荐:展开完整性Scienceisthemostimportantinotherpeople'sheart.怪怪的推荐可选中有一一两个 或多个

2020-02-18

我女朋友手机不给我看,她说有秘密,我该怎么办?

好奇心不要 了不好啊,呵呵即使她有了你男人,她都不 她的隐私。她有权力拒绝你查看手机。你对什儿 回答的评价是?相爱就要信任,你你们信任你才告诉你她有秘密,也不不信任你她

2020-02-18