five

AlexFromSynlabs/sllm

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AlexFromSynlabs/sllm
下载链接
链接失效反馈
官方服务:
资源简介:
ViGGO是一个用于数据到文本生成的英文数据集,专注于视频游戏领域,目标响应更偏向于对话式而非信息检索式。数据集包含约5,000个样本,非常干净,适合用于评估神经模型的迁移学习、低资源或少量样本学习能力。数据集的结构包括两个主要字段:`mr`(意义表示)和`ref`(参考输出)。数据集分为训练集、验证集和测试集,比例为7.5:1:1.5。数据集的创建目的是为了在开放域聊天机器人中使用,而不是任务导向的对话系统。

ViGGO是一个用于数据到文本生成的英文数据集,专注于视频游戏领域,目标响应更偏向于对话式而非信息检索式。数据集包含约5,000个样本,非常干净,适合用于评估神经模型的迁移学习、低资源或少量样本学习能力。数据集的结构包括两个主要字段:`mr`(意义表示)和`ref`(参考输出)。数据集分为训练集、验证集和测试集,比例为7.5:1:1.5。数据集的创建目的是为了在开放域聊天机器人中使用,而不是任务导向的对话系统。
提供机构:
AlexFromSynlabs
原始信息汇总

数据集卡片 for GEM/viggo

数据集描述

数据集概述

ViGGO 是一个英语数据到文本生成数据集,领域为视频游戏,目标响应比信息寻求更会话,但受限于意义表示中的信息。数据集相对较小,约有 5,000 个数据集,但非常干净,因此可以用于评估神经模型的迁移学习、低资源或小样本能力。

数据集结构

数据字段

每个示例包含以下两个字段:

  • mr:意义表示(MR),以结构化格式提供要传达的信息以及所需的对话行为(DA)类型。
  • ref:参考输出,即实现 MR 中所有信息的对应话语。

每个 MR 是一个属性-值对的扁平字典,“包装”在对话行为类型指示中。这种格式主要因其紧凑性而被选择,但也允许在单个 MR 中轻松连接多个 DA(每个 DA 可能具有不同的属性)。

以下是 ViGGO 中所有可能的属性(也称为“槽”)及其类型/可能值的列表:

  • name:视频游戏的名称(例如,Rise of the Tomb Raider)。
  • release_year:视频游戏发布的年份(例如,2015)。
  • exp_release_date:对于尚未发布的游戏,预期发布日期(例如,2019 年 2 月 22 日)。注意:此槽不能与 release_year 同时出现在同一个对话行为中。
  • developer:创建游戏的工作室/个人的名称(例如,Crystal Dynamics)。
  • genres:来自一组可能值的一个或多个类型标签的列表(例如,动作冒险、射击)。
  • player_perspective:游戏可以/可以玩的视角列表(可能值:第一人称、第三人称、侧面视角、鸟瞰视角)。
  • platforms:游戏正式发布的游戏平台列表(可能值:PC、PlayStation、Xbox、Nintendo、Nintendo Switch)。
  • esrb:由 ESRB 确定的游戏内容评级(可能值:E(适用于所有人)、E 10+(适用于 10 岁及以上)、T(适用于青少年)、M(适用于成熟))。
  • rating:根据对话行为,这是游戏平均评级或游戏喜好的分类表示(可能值:优秀、良好、平均、差)。
  • has_multiplayer:指示游戏是否支持多人游戏或只能以单人模式玩(可能值:是、否)。
  • available_on_steam:指示游戏是否可以通过 Steam 数字分销服务购买(可能值:是、否)。
  • has_linux_release:指示游戏是否支持 Linux 操作系统(可能值:是、否)。
  • has_mac_release:指示游戏是否支持 macOS(可能值:是、否)。
  • specifier:由 request DA 使用的游戏指定符,通常是形容词(例如,上瘾、最简单、过高评价、视觉上令人印象深刻)。

每个 MR 在数据集中有 3 个不同的参考话语,表示为 3 个具有相同 MR 的单独示例。

数据分割

ViGGO 分为 3 个分区,训练集和验证集、测试集之间没有共同的 MR(并且在去词汇化 namedeveloper 槽之后)。示例在分区中的比例约为 7.5 : 1 : 1.5,其确切大小如下:

  • 训练集: 5,103 个示例(1,675 个唯一 MR)
  • 验证集: 714 个示例(238 个唯一 MR)
  • 测试集: 1,083 个示例(359 个唯一 MR)
  • 总计: 6,900 个示例(2,253 个唯一 MR)

注意:唯一 MR 的数量不是所有示例的三分之一的原因是,对于每个 request_attribute DA(只有一个槽,并且没有值),收集了 12 个参考话语,而不是 3 个。

数据集特点

语言

  • 覆盖语言: 英语
  • 许可证: cc-by-sa-4.0(Creative Commons Attribution Share Alike 4.0 International)

任务

  • 主要任务: 数据到文本生成
  • 领域: 视频游戏

数据集来源

数据集创建者

  • Juraj Juraska, Kevin K. Bowden, Marilyn Walker

数据集添加到 GEM 的人

  • Juraj Juraska

数据集使用

预期用途

ViGGO 旨在用于聊天机器人的数据到文本生成任务(相对于任务导向的对话系统),目标响应更会话而非信息寻求,但受限于意义表示中的信息。数据集相对较小且干净,也可以用于展示神经模型的迁移学习能力。

数据集评估

评估指标

  • BLEU, METEOR, ROUGE, BERT-Score, BLEURT, SER(槽错误率)

数据集获取

数据加载

python import datasets data = datasets.load_dataset(GEM/viggo)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作