Building a benchmark dataset for hate speech detection presents several challenges. Firstly, because hate speech is relatively rare -- e.g., less than 3\% of Twitter posts are hateful \citep{founta2018large} -- random sampling of tweets to annotate is inefficient in capturing hate speech. A common practice is to only annotate tweets containing known ``hate words'', but this risks yielding a biased benchmark that only partially captures the real-world phenomenon of interest. A second challenge is that definitions of hate speech tend to be highly variable and subjective. Annotators having diverse prior notions of hate speech may not only disagree with one another but also struggle to conform to specified labeling guidelines. Our key insight is that the rarity and subjectivity of hate speech are akin to that of relevance in information retrieval (IR). This connection suggests that well-established methodologies for creating IR test collections might also be usefully applied to create better benchmark datasets for hate speech detection. Firstly, to intelligently and efficiently select which tweets to annotate, we apply established IR techniques of {\em pooling} and {\em active learning}. Secondly, to improve both consistency and value of annotations, we apply {\em task decomposition} \cite{Zhang-sigir14} and {\em annotator rationale} \cite{mcdonnell16-hcomp} techniques. Using the above techniques, we create and share a new benchmark dataset\footnote{We will release the dataset upon publication.} for hate speech detection with broader coverage than prior datasets. We also show a dramatic drop in accuracy of existing detection models when tested on these broader forms of hate. Collected annotator rationales not only provide documented support for labeling decisions but also create exciting future work opportunities for dual-supervision and/or explanation generation in modeling.


翻译:首先,由于仇恨言论的定义相对而言很少 -- -- 例如,在推特上只有不到3 ⁇ 的仇恨言论是令人憎恶的 \ citep{founta2018 grand} -- -- 将推特随机取样到注解中是无效的。通常的做法是只对含有已知的“仇恨单词”的推文进行注解,但这种风险会产生偏颇的基准,只能部分地捕捉真实世界的仇恨现象。第二个挑战是,仇恨言论的定义往往具有高度的可变性和主观性。具有不同先前仇恨言论概念的告示者不仅可能相互不同,而且很难遵守指定的标签准则。我们的主要洞察觉是,仇恨言论的易读性和主观性与信息检索中的关联性(IR)相近。这种联系表明,建立IR测试收藏的既定方法可能只用于为仇恨言论的检测创建更好的基准数据集。首先,更聪明和高效地选择未来推文的推介,我们用固定的 IR 方法联合起来计算仇恨言论的评析范围, 并且积极学习前期数据。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
专知会员服务
41+阅读 · 2020年9月6日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
已删除
将门创投
8+阅读 · 2019年7月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Arxiv
12+阅读 · 2020年6月20日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关资讯
已删除
将门创投
8+阅读 · 2019年7月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Top
微信扫码咨询专知VIP会员