allenai/soda
收藏Hugging Face2023-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/soda
下载链接
链接失效反馈官方服务:
资源简介:
🥤SODA是第一个公开的、百万规模的高质量对话数据集,涵盖了广泛的社会互动。对话是通过从InstructGPT中提取并结合社会常识知识图谱(Atomic10x)中的知识进行上下文化处理而创建的。人类评估显示,SODA中的对话比之前由人类编写的数据集(如DailyDialog、BlendedSkillTalk)更加一致、具体且自然。此外,由于社会常识知识包括情感反应(即xReact关系),SODA还包含了385K个对话,标注了1.7K种独特的情感,并提供了关于体验者和原因的信息(即PersonX和事件头)。数据集的结构包括事件头、关系、事件尾、叙述、对话、说话者等多个字段。
提供机构:
allenai
原始信息汇总
数据集概述
数据集名称
- 名称: SODA
数据集描述
- 描述: SODA 是一个公开的百万级高质量对话数据集,涵盖广泛的社交互动。该数据集通过将社交常识知识从知识图谱(Atomic10x)上下文化,从PLM(InstructGPT)中提炼对话。
语言
- 语言: 英语
数据集结构
- 字段:
head,relation,tail,literal,narrative,dialogue,speakers,PersonX,PersonY,PersonZ,original_index,split,head_answer,pmi_head_answer,relation_tail_answer,pmi_relation_tail_answer - 类型: 字符串、列表、整数
- 描述: 描述了常识知识三元组的事件、关系、尾事件、句子形式的常识知识、基于常识知识的叙述、对话、说话者、人物角色以及分割信息。
数据集创建
- 创建方法: 通过从InstructGPT中提炼对话,并结合社交常识知识图谱的上下文化信息来生成对话。
数据集大小
- 大小: 1486896个样本
- 分割: 训练集1191582个样本,验证集146346个样本,测试集148968个样本
许可证
- 许可证: cc-by-4.0
标签和任务
- 标签: 对话、叙述、常识
- 任务: 对话生成
数据集来源
- 来源: 原始数据集和扩展数据集(Atomic10x)



