This paper presents a large, labelled dataset on people's responses and expressions related to the COVID-19 pandemic over the Twitter platform. From 28 January 2020 to 1 Jan 2021, we retrieved over 132 million public Twitter posts (i.e., tweets) from more than 20 million unique users using four keywords: "corona", "wuhan", "nCov" and "covid". Leveraging natural language processing techniques and pre-trained machine learning-based emotion analytic algorithms, we labelled each tweet with seventeen latent semantic attributes, including a) ten binary attributes indicating the tweet's relevance or irrelevance to the top ten detected topics, b) five quantitative emotion intensity attributes indicating the degree of intensity of the valence or sentiment (from extremely negative to extremely positive), and the degree of intensity of fear, of anger, of sadness and of joy emotions (from barely noticeable to extremely high intensity), and c) two qualitative attributes indicating the sentiment category and the dominant emotion category the tweet is mainly expressing. We report the descriptive statistics around the topic, sentiment and emotion attributes, and their temporal distributions, and discuss the dataset's possible usage in communication, psychology, public health, economics, and epidemiology research.


翻译:从2020年1月28日到2021年1月1日,我们从超过2 000万个独特用户处检索了超过1.32亿个公共推特文章(即推特),其中使用了四个关键词:“corona”、“wurhan”、“nCov”和“covd”。我们利用自然语言处理技巧和经过训练的机能学习的情感解析算法,用17种潜伏语义属性,包括(a) 10个二元属性来标注每条推特,表明该推特与所检测到的十大主题的相关性或不相干;b) 5个量化情感强度属性,表明其价值或情绪的强度(从极负到极正),以及恐惧、愤怒、悲伤和喜悦情绪的强度(从几乎不明显到极高的强度);c) 两种定性属性,表明该推文的情绪类别和主要情感类别。我们报告围绕该主题、情感和情感属性及其时间分布的描述性统计数据,并讨论经济研究、可能采用的数据、心理学和心理学。

0
下载
关闭预览

相关内容

Twitter(推特)是一个社交网络及微博客服务的网站。它利用无线网络,有线网络,通信技术,进行即时通讯,是微博客的典型应用。
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
超全的人脸识别数据集汇总,附打包下载
极市平台
90+阅读 · 2020年3月7日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
Linguistically Regularized LSTMs for Sentiment Classification
黑龙江大学自然语言处理实验室
8+阅读 · 2018年5月4日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
Top
微信扫码咨询专知VIP会员