文章正文

诗词 散文 小说 杂文 校园 文苑 历史 人物 人生 生活 幽默 美文 资源中心小说阅读归一云思

面向自然语言处理的情感标注:回顾与展望

时间:2023/11/9 作者: 安徽文学·下半月 热度: 20703
荆礼楠 曹永红

  摘 要:语料库标注是发现语料库潜在价值的重要方法。本文回顾已有语料库标注,总结分析语料库标注的作用及标准化趋势,综述国内外重要情感标注资源,针对情感标注过程中的主要问题,提出初步解决方案,以便更好地开展面向自然语言处理的情感标注研究。

  关键词:自然语言处理 标注 情感标注 情感分析

  一、引言

  自然语言处理是计算机科学及语言学关注计算机和人类语言间相互作用的领域。冯志伟(2006)[1]指出“随着语料库语言学崛起,大规模真实文本处理成为自然语言处理的主要目标。自然语言处理越来越多地使用机器自动学习获取语言知识。”

  实现自然文本机器可读关键在于标注。随着机器学习广泛应用,标注的重要性日益显现。本文结合国内外研究成果,总结情感标注研究概况,针对问题提出初步解决方案,便于今后面向自然语言处理的情感标注研究的开展。

  二、标注概述

  尽管学界对“标注”的定义不尽相同,但大都反映了语料标注实质——语言符号的转换(邢富坤,2015 [ 2 ] )。

  (一)作用

  标注价值主要体现在:

  1.语言学研究

  通过统计分析大规模语料,可发现仅靠少数例子无法发现的语言现象,使语言知识显性化,辅助语言规律研究,从而推动语言学深入研究。

  2.自然语言处理

  标注使语言实现计算机可读,推动建立大型语料库,促进开发基于语料库的应用系统,推动信息检索、机器翻译及情感分析等新兴领域发展。此外,机器学习方法应用广泛,标注语料库可用来训练检测及改进机器学习算法,经改进的算法可推动建立大型优质语料库,节省人力物力,极大推动自然语言处理发展。

  (二)标注模式标准化

  自语料库语言学诞生以来,标注模式多种多样(见表一)。有些逐渐淘汰,如COCOA,有些则成为主流。ISO/TC37/SC4负责建设管理语言资源的国际标准。LAF是其工作核心,是协调现有语言资源及开发新资源的基础。

  三、情感标注及研究概况

  目前语料库正处于以互联网为语料的第四个发展阶段。随着Web2.0兴起,尤其微博、论坛、社交及购物网站等崛起,用户自由表达观点情感。因此,海量主观文本迅速涌现,其中蕴含丰富情感。为方便信息查找,情感分析应运而生。基于语料库的统计学习是情感分析的常用方法。因此,为实现自动情感分析,需要情感标注,构建大型语料库作为数据支撑。情感分析结果很大程度取决于情感语料库的规模与质量。

  目前国外情感标注资源相对丰富,而国内研究刚刚起步,资源匮乏。情感标注资源主要包括:博客;新闻;书评;影评;产品评论;文学作品(见表二)。

  情感标注大致可划分为四类:

  (1)主客观分类(Wiebe, 2005[3]; Aman & Szpakowicz, 2007[4])

  (2)情感极性分类:正面/负面(/中性)(Pang, 2002[5])

  (3)情感分类(按范畴、维度或语言学理论分类)(Michal Ptaszynski, 2014[6]; 张冬瑜等, 2015[7])

  (4)细致观点划分:实体;情感;观点持有者等(Liu, 2012[8])

  不难发现:为满足应用,情感标注趋于细粒度化。

  四、问题及解决方案

  情感标注主要存在以下问题:

  (一)情感分类

  情感分类是情感分析领域的核心问题,旨在解决情感极性自动判断问题(陈龙,2017[9])。对情感标注而言,情感分类一定程度上决定标注体系,影响标注质量和应用(Ide & Romary, 2004[10])。周明(1994[11])认为“若类别划分過粗, 则难以全面描述复杂现象;若类别划分过细,则增加标注难度、降低标注效率, 细微差别导致结果差异巨大。

  如何选择合适情感分类,是语料库领域亟待解决的重点问题之一。此外,不同领域包含不同情感,同一词汇在不同领域可能表达不同情感含义。

  (二)标注标准

  缺乏统一建设标准,尤其是标注标准,导致语料库建设各自为政,阻碍资源共享。标注随意性体现在:

  (1)标注模式:COCOA / TEI / CES

  (2)标记语言:SGML / XML / 自定义置标语言

  (3)标签集:同一标签在不同语料库中有不同含义

  (4)标注形式:分离式标注/ 内嵌式标注

  针对以上问题,可从两方面改善:

  (三)黄金标准情感语料库

  黄金标准语料库可为语料库建设提供借鉴标准,提高互用性;也可用来训练改进机器学习算法,使机器实现自动学习,推动构建规模更大,质量更高的情感语料库,为相关自然语言处理及语言研究提供充足语料。

  (四)情感词汇表

  不同领域包含不同情感,需要专门情感分类体系。此外,同一词汇在不同领域可表达不同情感。因此,今后研究应尝试建立专门领域情感分类体系。

  当前语料库建设趋向小型化、专门化,亟须建立合理完善的专门领域情感词汇表,以满足语料库建设需求。

  五、总结与展望

  目前情感标注工程在国内外如火如荼地开展。然而情感分类混乱,标注标准缺乏,导致情感语料库建设各自为政,阻碍资源共享。亟需创建黄金标准情感语料库及合理完善的专门领域情感词汇表,以满足语料库建设需求,从而更好地开展面向自然语言处理的情感标注研究。

  参考文献

  [1] 冯志伟.当前自然语言处理发展的几个特点[J].暨南大学华文学院学报,2006(1):34-40.

  [2] 邢富坤.面向语言处理的语料库标注:回顾与反思[J].解放军外国语学院学报, 2015,38(3):8-13.endprint

  [3] Wiebe,J & Wilson,T.& Cardie,C.Annotating expressions of opinions and emotions in language[J].Language Resource and Evaluation,2005,39(2-3):164-210.

  [4] Aman,S.& Szpakowicz,S.Identifying expressions of emotion in text[C].In:Proceedings of the 10th International Conference on Text,Speech,and Dialogue(TSD-2007),Lecture Notes in Computer Science,Springer-Verlag.

  [5] Pang B.& Lee,L.Cornell movie-review corpus[DB/OL].http://www.cs.Cornell.edu/People/pabo/movie-review-data,

  2002.

  [6] Michal Ptaszynski et al.Automatically annotating a five-billion-word corpus of Japaneseblogs for sentiment and affect analysis[J].Computer Speech and Language,2014,28:38-55.

  [7] 张冬瑜.林鸿飞等.情感隐喻语料库构建与应用[J].中国科学:信息科学,2015,45(12):1574-1587.

  [8] Bing Liu.Sentiment analysis and opinion mining[M].San Francisco:Morgan Claypool Publishers,2012:12.

  [9] 陳龙.管子玉.何金红.彭进业.情感分类研究进展[J].计算机研究与发展,2017,54(6):1150-1170.

  [10] Ide,N.& L,Romary.International standard for a linguistic annotation framework[J].Journal of Natural Language Engineering,2004,10(3):211-225.

  [11] 周明.黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报, 1994,8(3):35-52.endprint
赞(0)


猜你喜欢

推荐阅读

参与评论

0 条评论
×

欢迎登录归一原创文学网站

最新评论