未来智讯 > 新闻资讯 > 对自然语言处理与形式化理解的现状做一些回复和点评
导读:自然语言处理(Natural Language Processing)简称NLP 是计算机科学人工智能技术领域的一个重要研究方向。仅仅从字面意思来看,自然语言指语音和义项结合的口语及其书面文本,现在主流看法把语言数据归类为语音处理和文本处理的两个范畴。因此,自然语言处理...
      自然语言处理(Natural Language Processing)简称NLP 是计算机科学人工智能技术领域的一个重要研究方向。仅仅从字面意思来看,自然语言指语音和义项结合的口语及其书面文本,现在主流看法把语言数据归类为语音处理和文本处理的两个范畴。因此,自然语言处理就是要让计算机能够通过建模与仿真“理解”人类的自然语言,语音、文本或文字转化为可被计算的对象或符号,数字、向量或矩阵,再根据实际的目标任务做进一步处理。
      自然语言处理的基本任务有哪些?
      可分两大类,一是从文本序列到文本序列即输入文本并输出文本,机器翻译和文本转换或风格迁移等。文本风格迁移将负面的文本转为正面的句子,现代文与文言文的风格转换。二是从序列到类别,如情感词汇分类,实体命名识别等。前者对文本进行分析和推理的过程,输入文本划分为正面或负面两种或几类。后者识别文本中具有特定意义的对象或实体,例如人名、地名、机构名、专有名词等,是一项十分重要的基础任务。它以文本序列为输入,输出序列,则是每个位置所归属的类别。
      为什么要做从语音到文字的翻译模型?
      直接输入文字或把语音转化为输出文字。很多语言连文字都没有,只能做从语音到文字的对应。输入和输出的语言,如果都没有文字,可做从语音到语音的转换解释或翻译。世界上有几千种语言。两两匹配几千的平方对组合。现实很难收集到所有的两两语言组合对去做有监督学习模型的训练,这是不切实际的。因此无监督学习是很有必要的。模型看不出中文和英文的对应关系,却能够自动学会把英文转换为中文,把中文转换为英文。
      自然语言处理能够辨别真假新闻吗?
      计算机是如何验证新闻语音或文本的真伪呢?这涉及事实验证问题,属于语音或者文本分类的一种类型。机器模型能否判断新闻内容真假?现实中很多假新闻从文章本身就连人自己都很难判断其真假。通过回复评论等反馈信息加入模型的输入作为预测真假的判断根据或参考。有关的新闻或百科也可增强其事实审核判断的能力。
      自然语言处理程序如何辨别话的真伪?
      这类自然语言推断 (NLI)任务,以一个陈述前提一个假设作为模型的输入,输出则是能否通过前提推出假设,包含三个类别,分别是矛盾、蕴含和中性,据此做判断。
      什么是对象命名实体识别?
      命名实体识别是自然语言处理中一项十分重要的基础任务。关于命名实体的内容并无定义,取决于用户关心哪些事情,随着行业领域不同有所差异。一般的实体包括人名、组织和地名等等,但这不是完整的实体的定义。它取决于具体应用,如我们想让机器读大量医学相关的文献,希望它自动查询有什么药物可治疗新冠状肺炎。药物名字就是实体。类似词性标注、槽位填充,它以文本序列为输入,输出序列上每个位置的类别。两个问题名字一样但指的是不同的东西,需要实体消歧。不一样的名字指相同的东西,需要实体归一化。如何抽取实体已经有非常多的相关研究。核心问题就是名实是否对应匹配的问题!
      什么是词性标注?
      词性标注,就是标记出一个句子中的每个词的词性是动词、名词或形容词等。对于输入的文本序列,输出该序列每个位置的类别。早期的词性标注方法是基于规则的其基本思想是按兼类词(有多种可能词性的词)搭配关系和上下文语境来建立词类消歧规则。随着语料库规模的不断扩大,基于机器学习的自动提取方法逐渐取代了以人工提取规则的方式。其主要思想是,用初始状态的标注器标识未标注的文本,产生已标注的文本。一旦文本被标注便将其与正确的标注文本进行比较,机器可以从错误中学到一些规则,形成一个排序的规则集,使其能够修正已标注的文本,让标注结果更接近于参考答案。通过不断的试错学习迭代,直到新的规则无法减少已标注的语料错误数,即:达到最优状态。最终的规则集,就是学习到的规则结果。
      什么是问答系统问题?它是以一连串句子为输入,输出答案序列。搜索引擎仅仅做相关性检索。如果想要理解文本语料,则需要机器阅读理解。当前主流的研究其实并没有让模型给出完整答案。通常做的是抽取式的QA,就是给定一段文章和问题,模型需要输入答案在文章段落中的位置,它强制地复制原文中的内容,无法自主地生成不在文章中的答案。因此,叫做话语的部分Part-of-Speech (POS)并对其做的标注Tagging
      
转载请注明来源。原文地址:https://www.7428.cn/page/2021/0429/98449/
 与本篇相关的热门内容: