allenai/soda

Name: allenai/soda
Creator: allenai
Published: 2023-01-04 09:24:32
License: 暂无描述

Hugging Face2023-01-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/allenai/soda

下载链接

链接失效反馈

官方服务：

资源简介：

🥤SODA是第一个公开的、百万规模的高质量对话数据集，涵盖了广泛的社会互动。对话是通过从InstructGPT中提取并结合社会常识知识图谱（Atomic10x）中的知识进行上下文化处理而创建的。人类评估显示，SODA中的对话比之前由人类编写的数据集（如DailyDialog、BlendedSkillTalk）更加一致、具体且自然。此外，由于社会常识知识包括情感反应（即xReact关系），SODA还包含了385K个对话，标注了1.7K种独特的情感，并提供了关于体验者和原因的信息（即PersonX和事件头）。数据集的结构包括事件头、关系、事件尾、叙述、对话、说话者等多个字段。

提供机构：

allenai

原始信息汇总

数据集概述

数据集名称

名称: SODA

数据集描述

描述: SODA 是一个公开的百万级高质量对话数据集，涵盖广泛的社交互动。该数据集通过将社交常识知识从知识图谱（Atomic10x）上下文化，从PLM（InstructGPT）中提炼对话。

语言

语言: 英语

数据集结构

字段: head, relation, tail, literal, narrative, dialogue, speakers, PersonX, PersonY, PersonZ, original_index, split, head_answer, pmi_head_answer, relation_tail_answer, pmi_relation_tail_answer
类型: 字符串、列表、整数
描述: 描述了常识知识三元组的事件、关系、尾事件、句子形式的常识知识、基于常识知识的叙述、对话、说话者、人物角色以及分割信息。

数据集创建

创建方法: 通过从InstructGPT中提炼对话，并结合社交常识知识图谱的上下文化信息来生成对话。

数据集大小

大小: 1486896个样本
分割: 训练集1191582个样本，验证集146346个样本，测试集148968个样本

许可证

许可证: cc-by-4.0

标签和任务

标签: 对话、叙述、常识
任务: 对话生成

数据集来源

来源: 原始数据集和扩展数据集（Atomic10x）

5,000+

优质数据集

54 个

任务类型

进入经典数据集