数据集
名称 | 格式 | 链接 | 提取码 |
---|---|---|---|
commonsense_conversation_dataset.tar.gz
|
tar.gz
|
数据描述
常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。
数据提供
提供方:清华大学计算机系黄民烈副教授
主页地址:http://coai.cs.tsinghua.edu.cn/hml/
联系方式:aihuang$AT$tsinghua$DOT$edu$DOT$cn
相关论文:Hao Zhou, Tom Yang, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018, Stockholm, Sweden.
Github:https://github.com/tuxchow/ccm