2018 TCCI 数据共享

情感分类数据集

数据集

名称	格式	链接	提取码
train.json	json (2.8 MB)	https://pan.baidu.com/s/1qY3dgXe	5e7p

数据描述

本数据集包括4万多条句子,分为其他（Null), 喜好(Like)，悲伤(Sad)，厌恶(Disgust)，愤怒(Anger)，高兴（Happiness）六类，依次标号为0到5。如对句子“包包有点丑”给出的标签应该是3，因为这句话主要表达厌恶的情感，而对句子“南京的古鸡鸣寺，斋堂窗外”给出的标签应该是0. 数据集包括两个文件，分别为训练数据集和测试数据集，“train.json”为训练数据，共40133条，格式为[[句子1,标签1]，[句子2,标签2]…]，“test.csv”为测试数据，共4742条，格式为 test_id,句子，句子为utf-8编码的字符串，标签为int类型。数据分别来源于NLPCC Emotion Classification Challenge（训练数据中17113条，测试数据中2242条）和微博数据筛选后人工标注(训练数据中23000条，测试数据中2500条)。

数据提供

提供方：清华大学计算机系黄民烈副教授

主页地址：http://coai.cs.tsinghua.edu.cn/hml/

联系方式：aihuang$AT$tsinghua$DOT$edu$DOT$cn

相关论文：Hao Zhou, Minlie Huang, Xiaoyan Zhu, Bing Liu. Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory. AAAI 2018, New Orleans, Louisiana, USA.