扫一扫,关注我们
微信号:375279829
基于规则的中文人名识别系统
1. 中文命名实体
中文命名实体或未登录词识别就是把专有名词和数字信息从文本中抽出并进行分类,是现代汉语词法分析的一项基础性研究工作。它是许多中文信息处理应用的关键技术,例如:文本自动分类、文本理解、文本校对、文本主题自动抽取、文本聚类、文本挖掘、文本过滤、信息抽取、机器翻译等。
2. 信息抽取
信息抽取(Information Extraction)可以帮助人们在海量的信息中快速定位自己需要的信息。人物关系抽取作为信息抽取的重要应用主要包含两个功能:是从文本中抽取人名,二是确定人名之间存在的关系。而抽取人名首先要解决的问题就是人名识别,如果人名识别得不正确,那么人物之间建立的关系也必将是无效的,中文人名识别的效果直接关系到人物关系抽取的正确与否。
3. 信息检索
信息检索( Information Retrieval)是根据信息用户的需求找出有关信息的过程和技术。由于实体是文本中信息的有效载体,因此以词或命名实体作为文档的标引项或检索项就更为合理。由于中文词与词之间没有分割标记,命名实体的边界难以界定,仅以汉字或汉字串为基础的检索方法会导致查准率低、查询速度慢的问题。以人名“张羽泉”为例,当要检索人物“张羽泉”时,机器会误把包含句子“我这里有三张羽泉演唱会的门票”的文档也作为结果返回,从而导致查准率下降。
4. 机器翻译
机器翻译(Machine Translation)是利用计算机把一种自然源语言转变为另一种自然目标语言的过程。在方法论层面,机器翻译的主要方法可分为基于规则和基于语料库两大类。其中基于语料库的典型缺点是数据稀疏,并且一般不考虑句子结构,对语言结构的处理过于简单。而通过规则和语料库方法再结合命名实体识别可以从语言片段着手进行翻译,降低了翻译的难度。此外命名实体识别效果的提高对于双语语料库组块一级的对齐也会起到重要的促进作用。
5. 文献研究法
通过调查相关文献获得资料并对其进行研究分析,先对要采用的技术进行由浅入深,由易到难,由简到繁的学习和巩固,然后对系统进行分析,并重视研究已有的案例。
6. 基于规则方法
基于规则的方法是指通过分析人名内部特征及人名的上下文特征建立规则集,通过规则集来识别人名。如利用人名的构成规则及人名表达的意义来识别新疆人名等。
如需定做或者获取更多资料,请联系QQ:375279829