hanlp汉语自然语言处理入门基础知识介绍

By hadoop小学生 at 2019-01-02 • 0人收藏 • 1512人看过

自然语言处理定义：

自然语言处理是一门计算机科学、人工智能以及语言学的交叉学科。虽然语言只是人工智能的一部分（人工智能还包括计算机视觉等），但它是非常独特的一部分。这个星球上有许多生物拥有超过人类的视觉系统，但只有人类才拥有这么高级的语言。

自然语言处理的目标是让计算机处理或说“理解”自然语言，以完成有意义的任务，比如订机票购物或QA等。完全理解和表达语言是极其困难的，完美的语言理解等效于实现人工智能。

自然语言处理涉及的几个层次：

图片1.png

作为输入一共有两个来源，语音与文本。所以第一级是语音识别和OCR或分词（事实上，跳过分词虽然理所当然地不能做句法分析，但字符级也可以直接做不少应用）。接下来是形态学，援引《统计自然语言处理》中的定义：形态学（morphology）：形态学（又称“词汇形态学”或“词法”）是语言学的一个分支，研究词的内部结构，包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征，形态学处于音位学、句法学和语义学的结合部位，所以形态学是每个语言学家都要关注的一门学科。

Hanlp自然语言处理开发包：

从事大数据方面工作的人对自然语言处理必然都是不陌生的，在Github上用户量最多的开源汉语自然语言处理工具是HanLP。HanLP的初始版本是在2014年初开发的，3月份的时候开始在Github上开源。2015年的时候集成在了大快搜索的DKNLP中，目前大快已经把DKNLP技术成果已经开源，并且整体装如HanLP项目，HanLP的版本已经到了V1.50。

Hanlp自然语言处理技术优势：

支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词调、词性标注），命名实体识别（中国人民、音译人民、日本人民，地名，实体机构名识别），关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析（MaxEnt依存句法分析、神经网络依存句法分析）。提供Lucene查件，兼容Solr和ElasticSearch。

图片2.jpg