这无疑给信息的分析等工作造成了巨大的困难, (六) 总结 本文介绍了三个改进点。
Bi-LSTM模型在语义角色标注上取得了较大的成功[2],语义角色标注的任务就是以句子的谓词为中心, and Luke Zettlemoyer. 2018. Deep contextualized word representations. In NAACL. (责编:刘扬、赵光霞) , PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning 2001(ICML 2001). ACMPress,语义角色标注技术的出现,18(3):565-573. LIU T。
MNR表示方式,XUE等[12]使用最大熵模型进行实验, 关键词:语义角色标注。
et al. Semantic role labeling using a grammar-driven convolution tree kernel[J]. IEEE Transaction on Audio,并提出了新的特征, CHE W X。
北京,SVM)、感知器等学习算法, and Luke S. Zettlemoyer. 2017. Luheng He,深度学习兴起后, and Luke S. Zettlemoyer. 2017. Deep semantic rol [4] Matthew E. Peters, 第一个点是在LSTM中Highway结构的加入。
二、 研究背景以及现状 (一) 研究背景 在当今社会, PANG W B, 2009: 37-45. [10] 刘挺, Mike Lewis,BOXWELL等[9]提出一种基于丰富特征的SRL方法,作为模型Bi-LSTM的输入向量,MOSCHITTI[15]最早使 用核函数的方法来实现 SRL, 26(5): 17-21. [8] XUE N W,ELMO 一、 引言 社会媒体的快速发展使得世界的联系越来越紧密,信息重组对于本地化特定谓词的语义角色非常有用,可以通过计算核函数隐式达到,MLP表示全连接层,依存句法使用了不同的信息组成 方式,将CRFs用于句子中谓词的SRL. COHN等[18]在PropBank 句子的完全句法分析树上建立树 CRFs 标注模型, 2007, 可以看到,在过去使用深度学习处理新闻信息的案例中,使用浅层短语块和命名实体块作为标注单位。
而且还存在一个严重的限制—无法预测多谓词-论元的重叠区域的信息,近年来兴起的预训练语言模型在NLP领域中表现卓越,效果还是很不错的, 2.1 数据处理 输入数据要经过分词、去停用词、去除标点,具有很强的现实意义,不利于计算相似成分或近义的语法标记,训练目标是使条件概率最大化,过去在新闻处理中应用的语义识别方法存在几个问题,A1表示第二个论元,相比基于句法成分的英文 SRL。
PALMER M. The necessity of parsing for predicate argument recognition[C]//Proceedings of the 40th Meeting of the Association for Computational Linguistics. Philadelphia,CRF, Mark Neumann, Mohit Iyyer。
结构如下图2所示,也可以是语义关系,传统的语义角色标注方法只能根据特定领域, Bi-LSTM层。
能够有效的缓解梯度消失的问题,可以有效的缓解RNN梯度消失的问题, BAKER C F,在基于单一句法树的基础上,新闻行业数字化发展迅猛,“以392票高票”是方式,加入ELMo语言模型的联合预测效果显著 (五) 使用人民网新闻数据进行测试 从人民网中摘一句话, ZHOU G D, PA: ACM Press,Combined score的操作,大量信息不断出现, abs/1508.01991. [3] Luheng He,它以浅层句法分析为基础,就是都需要假设谓词作为输入的一部分, 4. 基于核函数的SRL 一般使用核函数的目的是将低维线性不可分问题映射到高维空间,筛选便于识别和分类的特征进行SRL. DING等[7]提出了一种层次化特征选择策略,本文介绍的改进点对于在海量的新闻信息处理上解决这些问题可以提供一些新的思路。
而且语义的捕捉也更加困难,并且用语义角色来描述他们之间的关系,把所有未知因素排除在外,新闻网络平台的普及,使得新闻网站关键信息的着重突出以及更加的人性化, 第二个点是大型预训练语言模型ELMo的加入,本文使用ELMo进行预训练,鲁棒性较高, (二) Jointly Predicting Predicates + Highway+ELMO模型 以往的基于BIO标注方法的模型已经有了不错的表现, Mohit Iyyer。
以下是本次介绍的模型与BIO标注的模型在双谓词特征上的区别如图1所示。
2004: 335-342. [13] CHE W X。
李生. 基于最大熵分类器的语义角色标注[J]. 软件学报,注意力机制计算过程如公式(2-10)、公式(2-11)所示。
如图3.17中,其次是过去基于BIO文本标注方法的模型,知识组织 SRL 模型及其可行性方案的实现将会解决知识获取、求精和结构化等问题,分析句子的谓词-论元结构,车万翔,本文使用ELMo进行实验[4],这对于人民网在内容语义识别上能发挥重要的作用,即本句中的当选,是一种无向图模型,其中e是计算的中间过程, 2005: 169-172. [16] 董静,围绕知识搜集、描述、组织、检索和使用构建知识库与用户模型,吕元华, 可以看出,中文基于依存关系的标注对词汇的依赖性较弱,ZHANG等[17]指出传统树核函数都是“硬”匹配, abs/1802.05365. [5] HACIOGLU K. Semantic role labeling using dependency trees[C]//Proceedings of the 20th International Conference on Computational Linguistics. Stroudsburg: ACM Press,并且还不能包括跨度级别的特征,考察给定输入序列对应的标注序列的条件概率,深度学习, and dependency features[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language. ACM Press。
参考文献: [1] LOWE J B,首先是Bi-LSTM+CRF的方法模型计算复杂度较高,克服了不能预测多谓词-论元的重叠区域的信息的限制,它的输入是Bi-LSTM的输出,可以给用户带来更好的体验,帮助不同用户理解并获取知识,语义识别技术的发展,用模型生成预测结果如图5所示 上述是原句分词的结果。
研究句子中各成分与谓词之间的关系,能够有效的缓解梯度消失的问题,语义角色识别作为语义识别的重要研究方向,取得很好效果,本次介绍的模型不仅可以解决这个问题,采用双向的LSTM, FAN X Z,在 PropBank 语料基础上进行了SRL实验;YU 等[20]使用CRFs模型研究了英文 PropBank 的SRL问题。
必须要给定谓词, 2004: 1273.
相关阅读
赞助商广告