数据集

名称 格式 链接 提取码
commonsense_conversation_dataset.tar.gz
tar.gz

数据描述

常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。

数据提供

提供方:清华大学计算机系黄民烈副教授

主页地址:http://coai.cs.tsinghua.edu.cn/hml/

联系方式:aihuang$AT$tsinghua$DOT$edu$DOT$cn

相关论文:Hao Zhou, Tom Yang, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018, Stockholm, Sweden.

Github:https://github.com/tuxchow/ccm