自然语言处理:人工智能的关键技术
发布时间:2021-06-10 17:08:36 所属栏目:大数据 来源:互联网
导读:自然语言处理的主要内容 自然语言处理的主要内容包括但不限于如下分支领域:文本分类、文本生成、文本分析、信息抽
自然语言处理的主要内容
自然语言处理的主要内容包括但不限于如下分支领域:文本分类、文本生成、文本分析、信息抽取、自动摘要、智能问答、话题推荐、机器翻译、主题词识别、知识库构建、深度文本表示、深度学习算法、命名实体识别、语音识别与合成等。自然语言处理主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。而用自然语言与计算机进行通信,有着十分重要的实际应用意义,也有着革命性的理论意义。
实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然语言文本来表达给定的意图、思想等;前者称为自然语言理解,后者称为自然语言生成。因此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。因为处理自然语言的关键是要让计算机“理解”自然语言,所以通常把自然语言理解视为自然语言处理, 也称为计算语言学。它的终极目标是用自然语言与计算机进行通信,使人们可以用自己最习惯的语言来使用计算机,而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。可以说,自然语言处理是计算机科学、语言科学,尤其是人工智能关注计算机与人类语言之间的相互作用的领域。
自然语言处理的基本任务包括正则表达式、分词、词法分析、语音识别、文本分类、信息检索、问答系统——如对一些问题进行回答或与用户进行交互——机器翻译等;常用的模型则有马科夫模型、朴素贝叶斯、循环神经网络等。自然语言处理要使用语言知识,如UNIX的wc程序可以用来计算文本文件中的字节数、词数或行数;当用它来计算字节数和行数时,wc只用于进行一般的数据处理,但当用它来计算一个文件中词的数目时,就需要关于“什么是一个词”的语言知识,这样,这个wc也就成为了一个自然语言处理系统。
自然语言处理是人工智能中最为困难的问题之一。美国微软公司创始人比尔·盖茨先生曾经表示,“语言理解是人工智能领域皇冠上的明珠”。前微软公司全球执行副总裁沈向洋先生也在公开演讲时说:“懂语言者得天下……下一个十年,人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面”。由于理解自然语言需要关于外在世界的广泛知识以及运用操作这些知识的能力,所以自然语言处理也被视为解决人工智能完备(AI-complete)的核心问题之一。可以说,自然语言处理目前是人工智能领域中的关键技术,对它的研究也是充满魅力和挑战的。
自然语言处理的发展简史
最早的自然语言处理研究工作是机器翻译;美国知名科学家沃伦•韦弗先生在1949年首先提出了机器翻译设计方案。在60年代,许多科学家对机器翻译曾有大规模的研究工作,投入了大量的人力物力财力。但是,受客观历史因素的限制,当时人们低估了自然语言的复杂性,语言处理的理论和技术均不成热,所以进展并不大。其主要的做法是存储两种语言的单词、短语对应译法的大辞典,翻译时一一对应,技术上只是调整语言的顺序。但日常生活中语言的翻译远不是如此简单,很多时候还要参考某句话前后的意思。
大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:(1)对系统的输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。同时,由于强调了“大规模”和“真实文本”,因此两方面的基础性工作也得到了重视和加强:(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础;没有它们,统计方法只能是无源之水。(2)大规模、信息丰富的词典的编制工作。因此规模为几万、十几万、甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。
迈进21 世纪,互联网的出现让信息量呈现爆炸式增长,得益于大数据、云计算、知识图谱、5G通信等各种新技术,自然语言处理的发展迎来加速,在日常生活中扮演着越来越重要的角色,走上更加丰富的应用舞台。如今,搜索引擎已经成为人们获取信息的重要工具,机器翻译越来越普及,聊天机器人层出不穷,智能客服开始服务于人类,各类智能机器人不断涌现;近年来,热度渐升的亚马逊 Alexa,既会作诗又能唱歌的微软小冰,又将自然语言处理推向另一个全新的高度,让其被越来越多的大众熟知。与之相对应,不管学术界还是企业界,对自然语言处理的谈论越来越多,更有甚者,自然语言处理被提升到战略层面。
系统的输入与输出这两个特征在自然语言处理的诸多领域都有所体现,其发展直接促进了计算机自动检索技术的出现和兴起。实际上,随着计算机技术的不断发展, 以海量计算为基础的机器学习、数据挖掘等技术的表现也愈发优异。自然语言处理之所以能够度过“寒冬”, 再次发展, 也是因为计算机科学与统计科学的不断结合,才让人类甚至机器能够不断从大量数据中发现“特征”并加以学习。不过要实现对自然语言真正意义上的理解,仅仅从原始文本中进行学习是不够的,我们需要新的方法和模型。
![]() (编辑:咸宁站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |