2018 CCF 数据共享与评测

简介

2018 CCF TCCI 数据共享评测

2018 CCF TCCI 数据共享评测是由中国计算机学会中文信息技术专委会发起的数据集分享和数据分析评测活动。活动旨在通过数据分享和评测,促进学术研究和学术评价工作,并为广大师生提供研究和教学方面的协助。

招募

加入我们的数据分项和评测

加入中国计算机学会的数据共享与评测活动,分享您的数据,或者进一步利用您的数据组织评测活动,增加您在技术领域的影响力。联系方式:support@biendata.com。

数据集

中文微博情绪识别数据集
对于输入的整条微博,任务要求判断出该微博是否包含情绪。对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶中的一种,即单分类输出
中文微博情感分析数据集
评测数据来自新浪微博,对于输入的整条微博,任务要求判断出该微博是否包含情绪。对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、disgust 厌恶、fear 恐惧、happiness 高兴、like 喜好、sadness 悲伤、surprise 惊讶。需要注意的是,一条微博中可能包含多个个体的不同情绪,每条微博都需要提交两种主导情绪。数据格式为 xml 格式,编码为 Unicode(utf-16)。
情感分类数据集
本数据集在给定中文句子的情况下,准确地给出该句子的情感标签。情感标签包括其他(Null), 喜好(Like),悲伤(Sad),厌恶(Disgust),愤怒(Anger),高兴(Happiness)六类,依次标号为0到5。
情感对话生成数据集
情感对话生成数据集(Emotional Conversation Generation, ECG)包括6000多条句子,分为喜好(Like),悲伤(Sad),厌恶(Disgust),愤怒(Anger),高兴(Happiness)六类,情绪类别在emotion列给出
开放域问答数据集
该任务来自NLPCC 2015评测任务,该任务提供了两个测试数据集,分别为英文和中文。每个测试集都包含一系列问题。我们提供每个问题的标准答案。这些数据可用于提取候选答案或训练QA系统。
中文搜索中实体识别与链接数据集
该任务来自NLPCC 2015评测任务,该任务的目标是对短queries中的实体进行识别并链接到对应的中文知识库中。本数据集包括一个中文知识库,该知识库来自各类中文百科的信息框,包括中文维基百科和百度百科。该数据集还包括每个实体页面的第一段作为该实体的摘要。
面向微博的中文新闻摘要数据集
该任务来自NLPCC 2015评测任务,该任务被定义为自动生成一篇中文新闻的摘要任务。每一条微博信息都由一个人工编辑撰写和发布,我们认为它是相关新闻文章的书面摘要。在许多微博消息中,新闻标题被用作第一句话,我们从微博消息中删除了含有新闻标题的内容。
微博文本的中文分词数据
该任务来自NLPCC 2016评测任务,该任务目的是研究微博文本的中文分词技术。与传统单一的分词评价方法不同,本任务引入了一种新的多粒度分词评价准则。该数据集是从新浪微博收集的,无论是训练和测试文件都是UTF-8编码。除了训练数据外,我们还提供提取训练和测试数据的背景数据。
中文词相似度数据
该任务来自NLPCC 2016评测任务,该任务提供了一个中文词汇相似度数据集,用于评估和比较词汇相似度的不同语义度量,包括500个词对及其相似度。在这个任务中,只提供一个测试数据集。所有的词对是由计算语言学专家构建的,有些指向同义词词林。二十名语言学的研究生对每个词对进行语义相似性评分(10分制),我们计算了二十人的平均得分作为每个词对的最终相似性得分。
中文微博中的立场检测数据
该任务来自NLPCC 2016评测任务,该任务的目的是自动确定一个微博文本的作者是否喜爱给定的目标,或不喜欢给定的目标,或者两者都不是。应该注意到这里给定的目标可能并没有在微博文本中。这意味着立场检测不同于传统的情感分析。
体育新闻自动生成数据
该任务来自NLPCC 2016评测任务,该任务是评估从网络直播文本中生成中文体育新闻的摘要技术。一个网络直播文本的内容通常是很长的,因此该任务可以视为对长文本进行摘要生成。该数据集中包括样本(训练)数据和测试数据。
中文词语义关系分类数据
该任务来自NLPCC 2017评测任务,本任务以词的语义分析为研究对象,旨在研究中文词汇语义关系的自动分类技术。给定一个词对,它们隶属的语义关系有以下几类:同义关系(例如,计算机-电脑),反义关系(例如,上涨-下降),下义关系(例如,食材-红薯),转喻关系(例如,汽车-发动机)和从属关系(如,医生-医院)。
新闻标题分类数据
该任务来自NLPCC 2017评测任务,该任务的目的是评价短文本自动分类技术,即中文新闻标题的分类。每个新闻标题(即新闻标题)都需要被划分为一个或多个预定义的类别。
文档摘要数据集
该任务来自NLPCC 2017评测任务,该任务提供了一个用于中文新闻文档摘要的数据集,用来评价和比较不同的文档摘要技术。“TTnews”语料库包含测试集和训练集。对于训练集,它包含大量的从头条上收集的新闻文章和相应的被头条编辑并推送使用的摘要信息。
开放域问答数据集
该任务来自NLPCC 2017评测任务,开放域问答评价任务主要包括三项子任务,基于知识库的问答(kbqa),基于文档的问答(dbqa),和基于表的问答(tbqa)。kbqa的任务是基于知识库的中文问题回答。
社交媒体用户建模
该任务来自NLPCC 2017评测任务,该任务提供了一个社交媒体数据集,包括以下异构信息:用户属性(如性别、年龄)、社交关系(following关系)、用户标签、用户发布的推文和用户的位置信息。
对话系统问题生成数据集
对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到,共计约49万组。
个性化对话生成数据集
个性化对话生成数据集(Personality Conversatrion Generation Dataset)共包含93,262条训练数据和1,000条测试数据,数据覆盖十类属性,分别为姓名(name)、性别(gender)、年龄(age)、居住地(location)、体重(weight)、星座(constellation)、爱好(hobby)、工作(employer)、特长(speciality)以及偶像(idol)。
含句式标签的回复生成数据集
含句式标签的回复生成数据集(Response Generation with Sentence Function Labels)包含近200万个单轮对话(即请求-回复的语句对),每个语句对都含有回复的句式类型标签,分别代表疑问句(Interrogative)、陈述句(Declarative)和祈使句(Imperative)。该数据集的对话部分已经分词,句式类型的标签通过分类器的自动标注获得。
多关系问答对数据集
多关系问答对数据集(PathQuestion)包括针对知识图谱路径的多关系问答对 (问题-答案-对应路径) 9000余条。从知识库抽取不同长度的路径,根据路径包含的关系的不同采用不同的模板生成问题。
常识对话生成数据集
常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。
更多数据集
敬请期待

数据评测

2018 NLPCC

情感分析

时间轴: 2017.07.18 - 2017.10.09

奖励: 约 ¥ 20,000

更多评测 敬请期待

主办方简介

中国计算机学会

中文信息技术专业委员会

中文信息技术专委会1987年10月成立,,主要包括(或涉及)中国各民族语言文字的自然语言处理、机器翻译、信息抽取、数据挖掘、信息检索、智能问答、语音识别与合成、社会网络计算等众多学术领域,以及中文计算,即中国语言文字处理的应用技术领域。

中文信息技术专业委员会

数据共享组

中文信息技术专委会数据共享组旨在收集、标记、分享自然语言处理领域中有价值的数据,减少研究人员在数据收集和整理上所花费的经历和费用,使更多的人充分地使用已有数据资源,推动相关领域的研究工作。

中文信息技术专业委员会

数据评测组

中文信息技术专委会数据评测组旨在利用有价值的数据集,组织自然语言处理领域中相关的评测任务,提供各个任务的评测数据和评测标准,吸引更多的青年学者从事自然语言处理领域的研究,推动相关领域的发展。

数据分享/评测组委

  • 黄民烈

    清华大学副教授

    组长

  • 万小军

    北京大学研究员

    组员

  • 段楠

    微软亚洲研究院

    主管研究员

  • 张金

    南开大学

    副教授

  • 廖祥文

    福州大学

    副教授

  • 张富峥

    微软亚洲研究院

    研究员

  • 计峰

    阿里巴巴智能服务事业部

    算法专家

  • 刘永彬

    南华大学副教授

    组员

支持机构