自然语言处理技术的应用(电子学报专辑自然语言处理技术与应用)

管理员 2023-04-22 11:37:18 0

专栏简介

从2017年科研论文《Attention is all your need》中提出Tran**ormer模型,到GPT的诞生,再到今日ChatGPT的走红,自然语言处理领域的飞速**引发了学界的广泛关注。《电子学报》本期专栏8篇论文聚焦新近自然语言处理领域的进展,涵盖的主题包含文本分类、语**析、对话与问答系统和文本分类方法等,其中既有知识库问答方向的综述论文,又有基于深度强化学习或基于高效用神经网络等方法的研究论文。这些论文比较充分展现了当前研究热点的延伸,对相关研究方向的读者将会有所启发。

面向知识库问答的问句语**析研究综述A Survey of Question Semantic Parsing for Knowledge Base Question Answering

引文格式:

仇韫琦, 王元卓, 白龙, 尹芷仪, 沈华伟, 白硕. 面向知识库问答的问句语**析研究综述[J]. 电子学报, 2022, 50(9): 2242-2264.

QIU Yun-qi, WANG Yuan-zhuo, BAI Long, YIN Zhi-yi, SHEN Hua-wei, BAI Shuo. A Survey of Question Semantic Parsing for Knowledge Base Question Answering[J]. Acta Electronica Sinica, 2022, 50(9): 2242-2264.

知识库问答(Knowledge Base Question Answering,KBQA)借助知识库中精度高、关联性强的结构化知识,为给定的复杂事实型问句提供准确、简短的答案.语**析是知识库问答的主流方法之一,该类方法在给定的问句语义表征形式下,将非结构化的问句映射为结构化的语义表征,再将其改写为知识库查询获取答案.目前,面向知识库问答的语**析方法主要面临三个挑战:首先是如何选择**的语义表征形式以表达问句的语义,然后是如何解析问句的复杂语义并输出相应的语义表征,最后是如何应对特定领域中数据标注成本高昂、高质量数据匮乏的问题.本文从上述挑战出发,**了知识库问答中常用的语义表征的特点与不足,然后梳理现有方法并总结**其如何应对问句的复杂语义,接着介绍了当前方法在标注数据匮乏的低资源场景下的尝试,最后展望并讨论了面向知识库问答的语**析的未来**方向.

基于短语向量和主题加权的关键词抽取方法The Theme-Weighted Keyphrase Extraction Algorithm Based on Phrase Embedding

引文格式:

孙新, 盖晨, 申长虹, 张颖捷. 基于短语向量和主题加权的关键词抽取方法[J]. 电子学报, 2021, 49(9): 1682-1690.

SUN Xin, GE Chen, SHEN Chang-hong, ZHANG Ying-jie. The Theme-Weighted Keyphrase Extraction Algorithm Based on Phrase Embedding[J]. Acta Electronica Sinica, 2021, 49(9): 1682-1690.

现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个**短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息。

基于层次化修正框架的文本纠错模型A Text Error Correction Model Based on Hierarchical Editing Framework

引文格式:

叶俊民, 罗达雄, 陈曙. 基于层次化修正框架的文本纠错模型[J]. 电子学报, 2021, 49(2): 401-407.

YE Jun-min, LUO Da-xiong, CHEN Shu. A Text Error Correction Model Based on Hierarchical Editing Framework[J]. Acta Electronica Sinica, 2021, 49(2): 401-407.

文本中存在的表达冗余、词汇误用和内容缺失等错误会显著影响文本语义的理解,当前解决上述文本错误的纠错模型存在两个主要的问题:当前的文本纠错模型主要基于编码器-解码器框架,解码速度较慢;许多工作将错误检测和修正分离成两个任务,没有形成统一的整体.为此,提出了一种基于层次化修正框架的文本纠错模型.首先,基于预训练模型建模**文本的多种语义表示;其次,利用文本的语义表示识别出文本中错误的位置;最后,利用层次化修正框架计算精化的修正操作并完成对错误的修正.针对公开文本纠错数据集CONLL-14进行了相关实验,结果表明本文模型比所选取的对比模型有更快的解码速度和更高的召回率。

基于深度强化学习的**尔语人称代词指代消解Anaphora Resolution of Uyghur Personal Pronouns Based on Deep Reinforcement Learning

引文格式:

杨启萌, 禹龙, 田生伟, 艾山·吾买尔. 基于深度强化学习的**尔语人称代词指代消解[J]. 电子学报, 2020, 48(6): 1077-1083.

YANG Qi-meng, YU Long, TIAN Sheng-wei, Aishan Wumaier. Anaphora Resolution of Uyghur Personal Pronouns Based on Deep Reinforcement Learning[J]. Acta Electronica Sinica, 2020, 48(6): 1077-1083.

针对深度神经网络模型仅学习当前指代链语义信息忽略了单个指代链识别结果的**影响问题,提出一种结合深度强化学习(deep reinforcement learning)的**尔语人称代词指代消解方法.该方法将指代消解任务定义为强化学习**下顺序决策过程,有效利用之前状态中先行语信息判定当前指代链指代关系.同时,采用基于整体奖励**优化策略,相比于使用损失函数启发式优化特定的单个决策,该方法直接优化整体评估指标更加高效.最后在**尔语数据集进行实验,实验结果显示,该方法在**尔语人称代词指代消解任务中的F值为85.80%.实验结果表明,深度强化学习模型能显著提升**尔语人称代词指代消解性能。

基于高效用神经网络的文本分类方法High Utility Neural Networks for Text Classification

引文格式:

吴玉佳, 李晶, 宋成芳, 常军. 基于高效用神经网络的文本分类方法[J]. 电子学报, 2020, 48(2): 279-284.

WU Yu-jia, LI Jing, SONG Cheng-fang, CHANG Jun. High Utility Neural Networks for Text Classification[J]. Acta Electronica Sinica, 2020, 48(2): 279-284.

现有的基于深度学习的文本分类方法没有考虑文本特征的重要性和特征之间的关联关系,影响了分类的准确率.针对此问题,本文提出一种基于高效用神经网络(High Utility Neural Networks,HUNN)的文本分类模型,可以有效地表示文本特征的重要性及其关联关系.利用高效用项集挖掘(Mining High Utility Itemsets,MHUI)算法获取数据集中各个特征的重要性以及共现**.其中,共现**在一定程度上反映了特征之间的关联关系.将MHUI作为HUNN的挖掘层,用于挖掘每个类别数据中重要性和关联性强的文本特征.然后将这些特征作为神经网络的输入,再经过卷积层进一步提炼类别表达能力更强的高层次文本特征,从而提高模型分类的准确率.通过在6个公开的基准数据集上进行实验**,提出的算法优于卷积神经网络(Convolutional Neural Networks,CNN),循环神经网络(Recurrent Neural Networks,RNN),循环卷积神经网络(Recurrent Convolutional Neural Networks,RCNN),快速文本分类(Fast Text Classifier,FAST),分层注意力网络(Hierarchical Attention Networks,HAN)等5个基准算法.

一种基于情感计算与层次化多头注意力机制的负面新闻识别方法A Negative News Recognition Method Based on Emotional Computing and Hierarchical Multi-head Attention Mechani**

引文格式:

张仰森, 周炜翔, 张禹尧, 吴云芳. 一种基于情感计算与层次化多头注意力机制的负面新闻识别方法[J]. 电子学报, 2020, 48(9): 1720-1728.

ZHANG Yang-sen, ZHOU Wei-xiang, ZHANG Yu-yao, WU Yun-fang. A Negative News Recognition Method Based on Emotional Computing and Hierarchical Multi-head Attention Mechani**[J]. Acta Electronica Sinica, 2020, 48(9): 1720-1728.

网络负面新闻识别在网络舆情监测中具有重要的研究意义.针对当前海量数据下负面新闻难以检测的问题,提出了一种基于情感计算与层次化多头注意力机制相结合的负面新闻识别方法.首先,从新闻文本中采用TF-IDF(Term Frequeney-Inverse Document Frquency)和语义相似度算法构建负面新闻情感词库;其次,采用情感倾向计算方法计算负面新闻情感词的情感倾向度;最后,将词语和词语的情感倾向度进行向量化表示,并采用层次化多头注意力机制进行正负面新闻的判定.情感计算和多头注意力机制的引入,对于捕获文本中的情感词语提供了很大帮助.最终本文基于真实的网络新闻文本数据与现有的多种算法进行对比,证明了该模型具有**的识别效果,相比于Han模型和LSTM模型分别提高了0.67%和3.29%.

SMGN:用于对话状态跟踪的状态记忆图网络SMGN: A State Memory Graph Network for Dialogue State Tracking

引文格式:

张志昌, 于沛霖, 庞雅丽, 朱林, 曾扬扬. SMGN:用于对话状态跟踪的状态记忆图网络[J]. 电子学报, 2022, 50(8): 1851-1858.

ZHANG Zhi-chang, YU Pei-lin, PANG Ya-li, ZHU Lin, ZENG Yang-yang. SMGN: A State Memory Graph Network for Dialogue State Tracking[J]. Acta Electronica Sinica, 2022, 50(8): 1851-1858.

对话状态跟踪是任务型对话系统的重要模块.已有研究使用注意力机制模拟图结构来引入历史信息,但这种方法无法显式利用对话状态的结构性.此外,如何生成复杂格式的对话状态也为研究带来了挑战.针对以上问题,本文提出一种状态记忆图网络SMGN(State Memory Graph Network).该网络通过状态记忆图保存历史对话信息,并使用图结构与当前对话进行特征交互.本文还设计了一种基于状态记忆图的复杂对话状态生成方法.实验结果表明,本文提出的方法在CrossWOZ数据集上联合正确率提高1.39%,在MultiWOZ数据集上提高1.86%。

一种量子概率启发的对话讽刺识别网络模型A Quantum Probability Inspired Network for Dialogue Sarca** Recognition

引文格式:

张亚洲, 俞洋, 朱少林, 陈锐, 戎璐, 梁辉. 一种量子概率启发的对话讽刺识别网络模型[J]. 电子学报, 2022, 50(8): 1885-1893.

ZHANG Ya-zhou, YU Yang, ZHU Shao-lin, CHEN Rui, RONG Lu, LIANG Hui. A Quantum Probability Inspired Network for Dialogue Sarca** Recognition[J]. Acta Electronica Sinica, 2022, 50(8): 1885-1893.

对话讽刺识别已经成为人工智能领域中一项极具挑战性的课题,其目的是辨别互动对话中晦涩难懂的诸如讽刺、轻蔑、嘲笑等隐喻性情感.从语言哲学**,目前的对话讽刺识别方法难以衡量人类语言在讽刺表达与理解方面固有的不确定性.鉴于量子概率在建模不确定性方面的优势,本文探索量子概率在讽刺识别领域的潜力并提出一种量子概率启发式网络.该网络主要包含复值嵌入层、量子复合层、量子测量层以及全连接层.本文将互动对话中每句话语视作是一组单词的类量子叠加,表征为复数向量.相邻话语之间的上下文交互被建模为量子系统与其周围**的复合,表示为密度矩阵.本文对每句话语进行量子测量,提取讽刺特征,并将讽刺特征输入到全连接层预测**讽刺识别结果.本文在两个基准数据集上进行实验,结果表明本文提出的模型优于先进讽刺识别模型,讽刺识别准确率分别提升5.2%与2.38%。

相关资讯

热门资讯

热门话题