数据集
| 名称 | 格式 | 链接 | 提取码 |
|---|---|---|---|
|
数据集.zip
|
zip
|
数据描述
该任务来自NLPCC 2017评测任务,该任务提供了一个用于中文新闻文档摘要的数据集,用来评价和比较不同的文档摘要技术。“TTnews”语料库包含测试集和训练集。对于训练集,它包含大量的从头条上收集的新闻文章和相应的被头条编辑并推送使用的摘要信息。此外,它还包含一部分的没有摘要的新闻文章(这部分数据可为半监督的方法提供使用)。对于测试集,它只包含新闻文章,这些新闻文章来源广泛,包括了不同的话题,如体育、食品、娱乐、政治、科技、金融等。TTnews语料库文档自动摘要语料库,其中训练集中带有摘要的文章有50000篇和50000篇不带有摘要的新闻文章,测试集中有2000篇新闻文章。有关该任务和数据集详细描述请见http://tcci.ccf.org.cn/conference/2017/taskdata.php
数据提供
提供方:头条AI实验室Lifeng Hua
联系方式:hualifeng@bytedance.com
相关论文:Hua L., Wan X., Li L. (2018) Overview of the NLPCC 2017 Shared Task: Single Document Summarization. In: Huang X., Jiang J., Zhao D., Feng Y., Hong Y. (eds) Natural Language Processing and Chinese Computing. NLPCC 2017. Lecture Notes in Computer Science, vol 10619. Springer, Cham