自然语言处理技术(即natural language processing,简称NPL)是人工智能的一个重要分支,其目的是利用计算机对自然语言进行智能化处理。基础的自然语言处理技术主要围绕语言的不同层级展开,包括音位(语言的发音模式)、形态(字、字母如何构成单词、单词的形态变化)、词汇(单词之间的关系)、句法(单词如何形成句子)、语义(语言表述对应的意思)、语用(不同语境中的语义解释)、篇章(句子如何组合成段落)7个层级。这些基本的自然语言处理技术经常被运用到下游的多种自然语言处理任务中,如机器翻译、对话、问答、文档摘要等。
科学家研究自然语言处理技术(NLP)的目的是让机器能够理解人类语言,用自然语言的方式与人类交流,最终拥有“智能”。AI时代,我们希望计算机拥有视觉、听觉、语言和行动的能力,其中语言是人类区别于动物的最重要特征之一,语言是人类思维的载体,也是知识凝练和传承的载体。在人工智能领域,研究自然语言处理技术的目的就是让机器理解并生成人类的语言,从而和人类平等流畅地沟通交流。
但现在的人工智能常常和我们的人工评价有很大的出入,这也是基于AI算法的自动评测面临的最大挑战:如何与人工评价保持一致?应对这个挑战需要解决很多问题。以智能阅卷为例:如何制定电脑适用的评测标准?人工智能如何应对语言的千变万化?如何设计阅卷综合性的评测指标?有科学家认为,大数据与富知识双轮驱动或许能成为解决问题的关键,即在大数据驱动的基础上加入富知识驱动,可以突破现在智能语言处理技术上的瓶颈。
总而言之,自然语言技术的发展说明人工智能技术的核心还是在“人”。“人工智能和机器学习带给决策过程的支撑和信心将使创新加速,但这并不意味着人类的缺席。人们仍然需要定义分析的起点、标注主题并从收集的信息中提取所需数据。”