数据集
名称 | 格式 | 链接 | 提取码 |
---|---|---|---|
train.json
|
json (2.8 MB)
|
5e7p
|
数据描述
本数据集包括4万多条句子,分为其他(Null), 喜好(Like),悲伤(Sad),厌恶(Disgust),愤怒(Anger),高兴(Happiness)六类,依次标号为0到5。如对句子“包包有点丑”给出的标签应该是3,因为这句话主要表达厌恶的情感,而对句子“南京的古鸡鸣寺,斋堂窗外”给出的标签应该是0. 数据集包括两个文件,分别为训练数据集和测试数据集,“train.json”为训练数据,共40133条,格式为[[句子1,标签1],[句子2,标签2]…],“test.csv”为测试数据,共4742条,格式为 test_id,句子, 句子为utf-8编码的字符串,标签为int类型。数据分别来源于NLPCC Emotion Classification Challenge(训练数据中17113条,测试数据中2242条)和微博数据筛选后人工标注(训练数据中23000条,测试数据中2500条)。
数据提供
提供方:清华大学计算机系黄民烈副教授
主页地址:http://coai.cs.tsinghua.edu.cn/hml/
联系方式:aihuang$AT$tsinghua$DOT$edu$DOT$cn
相关论文:Hao Zhou, Minlie Huang, Xiaoyan Zhu, Bing Liu. Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory. AAAI 2018, New Orleans, Louisiana, USA.