数据集

名称 格式 链接 提取码
train.json
json (2.8 MB)
5e7p

数据描述

本数据集包括4万多条句子,分为其他(Null), 喜好(Like),悲伤(Sad),厌恶(Disgust),愤怒(Anger),高兴(Happiness)六类,依次标号为0到5。如对句子“包包有点丑”给出的标签应该是3,因为这句话主要表达厌恶的情感,而对句子“南京的古鸡鸣寺,斋堂窗外”给出的标签应该是0. 数据集包括两个文件,分别为训练数据集和测试数据集,“train.json”为训练数据,共40133条,格式为[[句子1,标签1],[句子2,标签2]…],“test.csv”为测试数据,共4742条,格式为 test_id,句子, 句子为utf-8编码的字符串,标签为int类型。数据分别来源于NLPCC Emotion Classification Challenge(训练数据中17113条,测试数据中2242条)和微博数据筛选后人工标注(训练数据中23000条,测试数据中2500条)。

数据提供

提供方:清华大学计算机系黄民烈副教授

主页地址:http://coai.cs.tsinghua.edu.cn/hml/

联系方式:aihuang$AT$tsinghua$DOT$edu$DOT$cn

相关论文:Hao Zhou, Minlie Huang, Xiaoyan Zhu, Bing Liu. Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory. AAAI 2018, New Orleans, Louisiana, USA.