2018 TCCI 数据共享与评测

中文微博情绪识别数据集

对于输入的整条微博，任务要求判断出该微博是否包含情绪。对包含情绪的微博，要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶中的一种，即单分类输出

数据链接

中文微博情感分析数据集

评测数据来自新浪微博，对于输入的整条微博，任务要求判断出该微博是否包含情绪。对包含情绪的微博，要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶。需要注意的是，一条微博中可能包含多个个体的不同情绪，每条微博都需要提交两种主导情绪。数据格式为 xml 格式，编码为 Unicode（utf-16）。

数据链接

情感分类数据集

本数据集在给定中文句子的情况下，准确地给出该句子的情感标签。情感标签包括其他（Null), 喜好(Like)，悲伤(Sad)，厌恶(Disgust)，愤怒(Anger)，高兴（Happiness）六类，依次标号为0到5。

数据链接

情感对话生成数据集

情感对话生成数据集(Emotional Conversation Generation, ECG)包括6000多条句子，分为喜好(Like)，悲伤(Sad)，厌恶(Disgust)，愤怒(Anger)，高兴（Happiness）六类，情绪类别在emotion列给出

数据链接

开放域问答数据集

该任务来自NLPCC 2015评测任务，该任务提供了两个测试数据集，分别为英文和中文。每个测试集都包含一系列问题。我们提供每个问题的标准答案。这些数据可用于提取候选答案或训练QA系统。

数据链接

中文搜索中实体识别与链接数据集

该任务来自NLPCC 2015评测任务，该任务的目标是对短queries中的实体进行识别并链接到对应的中文知识库中。本数据集包括一个中文知识库，该知识库来自各类中文百科的信息框，包括中文维基百科和百度百科。该数据集还包括每个实体页面的第一段作为该实体的摘要。

数据链接

面向微博的中文新闻摘要数据集

该任务来自NLPCC 2015评测任务，该任务被定义为自动生成一篇中文新闻的摘要任务。每一条微博信息都由一个人工编辑撰写和发布，我们认为它是相关新闻文章的书面摘要。在许多微博消息中，新闻标题被用作第一句话，我们从微博消息中删除了含有新闻标题的内容。

数据链接

微博文本的中文分词数据

该任务来自NLPCC 2016评测任务，该任务目的是研究微博文本的中文分词技术。与传统单一的分词评价方法不同，本任务引入了一种新的多粒度分词评价准则。该数据集是从新浪微博收集的，无论是训练和测试文件都是UTF-8编码。除了训练数据外，我们还提供提取训练和测试数据的背景数据。

数据链接

中文词相似度数据

该任务来自NLPCC 2016评测任务，该任务提供了一个中文词汇相似度数据集，用于评估和比较词汇相似度的不同语义度量，包括500个词对及其相似度。在这个任务中，只提供一个测试数据集。所有的词对是由计算语言学专家构建的，有些指向同义词词林。二十名语言学的研究生对每个词对进行语义相似性评分（10分制），我们计算了二十人的平均得分作为每个词对的最终相似性得分。

数据链接

中文微博中的立场检测数据

该任务来自NLPCC 2016评测任务，该任务的目的是自动确定一个微博文本的作者是否喜爱给定的目标，或不喜欢给定的目标，或者两者都不是。应该注意到这里给定的目标可能并没有在微博文本中。这意味着立场检测不同于传统的情感分析。

数据链接

体育新闻自动生成数据

该任务来自NLPCC 2016评测任务，该任务是评估从网络直播文本中生成中文体育新闻的摘要技术。一个网络直播文本的内容通常是很长的，因此该任务可以视为对长文本进行摘要生成。该数据集中包括样本（训练）数据和测试数据。

数据链接

中文词语义关系分类数据

该任务来自NLPCC 2017评测任务，本任务以词的语义分析为研究对象，旨在研究中文词汇语义关系的自动分类技术。给定一个词对，它们隶属的语义关系有以下几类：同义关系（例如，计算机-电脑），反义关系（例如，上涨-下降），下义关系（例如，食材-红薯），转喻关系（例如，汽车-发动机）和从属关系（如，医生-医院）。

数据链接

新闻标题分类数据

该任务来自NLPCC 2017评测任务，该任务的目的是评价短文本自动分类技术，即中文新闻标题的分类。每个新闻标题（即新闻标题）都需要被划分为一个或多个预定义的类别。

数据链接

文档摘要数据集

该任务来自NLPCC 2017评测任务，该任务提供了一个用于中文新闻文档摘要的数据集，用来评价和比较不同的文档摘要技术。“TTnews”语料库包含测试集和训练集。对于训练集，它包含大量的从头条上收集的新闻文章和相应的被头条编辑并推送使用的摘要信息。

数据链接

开放域问答数据集

该任务来自NLPCC 2017评测任务，开放域问答评价任务主要包括三项子任务，基于知识库的问答（kbqa），基于文档的问答（dbqa），和基于表的问答（tbqa）。kbqa的任务是基于知识库的中文问题回答。

数据链接

社交媒体用户建模

该任务来自NLPCC 2017评测任务，该任务提供了一个社交媒体数据集，包括以下异构信息：用户属性（如性别、年龄）、社交关系（following关系）、用户标签、用户发布的推文和用户的位置信息。

数据链接

对话系统问题生成数据集

对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到，共计约49万组。

数据链接

个性化对话生成数据集

个性化对话生成数据集(Personality Conversatrion Generation Dataset)共包含93,262条训练数据和1,000条测试数据，数据覆盖十类属性，分别为姓名(name)、性别(gender)、年龄(age)、居住地(location)、体重(weight)、星座(constellation)、爱好(hobby)、工作(employer)、特长(speciality)以及偶像(idol)。

数据链接

含句式标签的回复生成数据集

含句式标签的回复生成数据集(Response Generation with Sentence Function Labels)包含近200万个单轮对话（即请求-回复的语句对），每个语句对都含有回复的句式类型标签，分别代表疑问句（Interrogative）、陈述句（Declarative）和祈使句（Imperative）。该数据集的对话部分已经分词，句式类型的标签通过分类器的自动标注获得。

数据链接

多关系问答对数据集

多关系问答对数据集(PathQuestion)包括针对知识图谱路径的多关系问答对 (问题-答案-对应路径) 9000余条。从知识库抽取不同长度的路径，根据路径包含的关系的不同采用不同的模板生成问题。

数据链接

常识对话生成数据集

常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据，相关常识知识库包含20,000多个实体，44个关系，120,000多个知识三元组。对话数据由 Reddit 论坛收集而来，经过常识知识库的匹配后，保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。

数据链接

更多数据集

敬请期待

2018 CCF 数据共享与评测

数据集

数据评测

2018 NLPCC

情感分析

更多评测敬请期待

主办方简介

数据分享/评测组委

黄民烈

万小军

段楠

张金

廖祥文

张富峥

计峰

刘永彬

支持机构

2018 CCF 数据共享与评测

数据集

数据评测

2018 NLPCC

情感分析

更多评测 敬请期待

主办方简介

数据分享/评测组委

黄民烈

万小军

段楠

张金

廖祥文

张富峥

计峰

刘永彬

支持机构

更多评测敬请期待