AlexFromSynlabs/sllm

Name: AlexFromSynlabs/sllm
Creator: AlexFromSynlabs
Published: 2024-01-08 13:35:54
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AlexFromSynlabs/sllm

下载链接

链接失效反馈

官方服务：

资源简介：

ViGGO是一个用于数据到文本生成的英文数据集，专注于视频游戏领域，目标响应更偏向于对话式而非信息检索式。数据集包含约5,000个样本，非常干净，适合用于评估神经模型的迁移学习、低资源或少量样本学习能力。数据集的结构包括两个主要字段：`mr`（意义表示）和`ref`（参考输出）。数据集分为训练集、验证集和测试集，比例为7.5:1:1.5。数据集的创建目的是为了在开放域聊天机器人中使用，而不是任务导向的对话系统。

提供机构：

AlexFromSynlabs

原始信息汇总

数据集卡片 for GEM/viggo

数据集描述

数据集概述

ViGGO 是一个英语数据到文本生成数据集，领域为视频游戏，目标响应比信息寻求更会话，但受限于意义表示中的信息。数据集相对较小，约有 5,000 个数据集，但非常干净，因此可以用于评估神经模型的迁移学习、低资源或小样本能力。

数据集结构

数据字段

每个示例包含以下两个字段：

mr：意义表示（MR），以结构化格式提供要传达的信息以及所需的对话行为（DA）类型。
ref：参考输出，即实现 MR 中所有信息的对应话语。

每个 MR 是一个属性-值对的扁平字典，“包装”在对话行为类型指示中。这种格式主要因其紧凑性而被选择，但也允许在单个 MR 中轻松连接多个 DA（每个 DA 可能具有不同的属性）。

以下是 ViGGO 中所有可能的属性（也称为“槽”）及其类型/可能值的列表：

name：视频游戏的名称（例如，Rise of the Tomb Raider）。
release_year：视频游戏发布的年份（例如，2015）。
exp_release_date：对于尚未发布的游戏，预期发布日期（例如，2019 年 2 月 22 日）。注意：此槽不能与 release_year 同时出现在同一个对话行为中。
developer：创建游戏的工作室/个人的名称（例如，Crystal Dynamics）。
genres：来自一组可能值的一个或多个类型标签的列表（例如，动作冒险、射击）。
player_perspective：游戏可以/可以玩的视角列表（可能值：第一人称、第三人称、侧面视角、鸟瞰视角）。
platforms：游戏正式发布的游戏平台列表（可能值：PC、PlayStation、Xbox、Nintendo、Nintendo Switch）。
esrb：由 ESRB 确定的游戏内容评级（可能值：E（适用于所有人）、E 10+（适用于 10 岁及以上）、T（适用于青少年）、M（适用于成熟））。
rating：根据对话行为，这是游戏平均评级或游戏喜好的分类表示（可能值：优秀、良好、平均、差）。
has_multiplayer：指示游戏是否支持多人游戏或只能以单人模式玩（可能值：是、否）。
available_on_steam：指示游戏是否可以通过 Steam 数字分销服务购买（可能值：是、否）。
has_linux_release：指示游戏是否支持 Linux 操作系统（可能值：是、否）。
has_mac_release：指示游戏是否支持 macOS（可能值：是、否）。
specifier：由 request DA 使用的游戏指定符，通常是形容词（例如，上瘾、最简单、过高评价、视觉上令人印象深刻）。

每个 MR 在数据集中有 3 个不同的参考话语，表示为 3 个具有相同 MR 的单独示例。

数据分割

ViGGO 分为 3 个分区，训练集和验证集、测试集之间没有共同的 MR（并且在去词汇化 name 和 developer 槽之后）。示例在分区中的比例约为 7.5 : 1 : 1.5，其确切大小如下：

训练集： 5,103 个示例（1,675 个唯一 MR）
验证集： 714 个示例（238 个唯一 MR）
测试集： 1,083 个示例（359 个唯一 MR）
总计： 6,900 个示例（2,253 个唯一 MR）

注意：唯一 MR 的数量不是所有示例的三分之一的原因是，对于每个 request_attribute DA（只有一个槽，并且没有值），收集了 12 个参考话语，而不是 3 个。

数据集特点

语言

覆盖语言： 英语
许可证： cc-by-sa-4.0（Creative Commons Attribution Share Alike 4.0 International）

任务

主要任务： 数据到文本生成
领域： 视频游戏

数据集来源

数据集创建者

Juraj Juraska, Kevin K. Bowden, Marilyn Walker

数据集添加到 GEM 的人

Juraj Juraska

数据集使用

预期用途

ViGGO 旨在用于聊天机器人的数据到文本生成任务（相对于任务导向的对话系统），目标响应更会话而非信息寻求，但受限于意义表示中的信息。数据集相对较小且干净，也可以用于展示神经模型的迁移学习能力。

数据集评估

评估指标

BLEU, METEOR, ROUGE, BERT-Score, BLEURT, SER（槽错误率）

数据集获取

数据加载

python import datasets data = datasets.load_dataset(GEM/viggo)

5,000+

优质数据集

54 个

任务类型

进入经典数据集