AlexFromSynlabs/sllm
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AlexFromSynlabs/sllm
下载链接
链接失效反馈官方服务:
资源简介:
ViGGO是一个用于数据到文本生成的英文数据集,专注于视频游戏领域,目标响应更偏向于对话式而非信息检索式。数据集包含约5,000个样本,非常干净,适合用于评估神经模型的迁移学习、低资源或少量样本学习能力。数据集的结构包括两个主要字段:`mr`(意义表示)和`ref`(参考输出)。数据集分为训练集、验证集和测试集,比例为7.5:1:1.5。数据集的创建目的是为了在开放域聊天机器人中使用,而不是任务导向的对话系统。
ViGGO是一个用于数据到文本生成的英文数据集,专注于视频游戏领域,目标响应更偏向于对话式而非信息检索式。数据集包含约5,000个样本,非常干净,适合用于评估神经模型的迁移学习、低资源或少量样本学习能力。数据集的结构包括两个主要字段:`mr`(意义表示)和`ref`(参考输出)。数据集分为训练集、验证集和测试集,比例为7.5:1:1.5。数据集的创建目的是为了在开放域聊天机器人中使用,而不是任务导向的对话系统。
提供机构:
AlexFromSynlabs
原始信息汇总
数据集卡片 for GEM/viggo
数据集描述
数据集概述
ViGGO 是一个英语数据到文本生成数据集,领域为视频游戏,目标响应比信息寻求更会话,但受限于意义表示中的信息。数据集相对较小,约有 5,000 个数据集,但非常干净,因此可以用于评估神经模型的迁移学习、低资源或小样本能力。
数据集结构
数据字段
每个示例包含以下两个字段:
mr:意义表示(MR),以结构化格式提供要传达的信息以及所需的对话行为(DA)类型。ref:参考输出,即实现 MR 中所有信息的对应话语。
每个 MR 是一个属性-值对的扁平字典,“包装”在对话行为类型指示中。这种格式主要因其紧凑性而被选择,但也允许在单个 MR 中轻松连接多个 DA(每个 DA 可能具有不同的属性)。
以下是 ViGGO 中所有可能的属性(也称为“槽”)及其类型/可能值的列表:
name:视频游戏的名称(例如,Rise of the Tomb Raider)。release_year:视频游戏发布的年份(例如,2015)。exp_release_date:对于尚未发布的游戏,预期发布日期(例如,2019 年 2 月 22 日)。注意:此槽不能与release_year同时出现在同一个对话行为中。developer:创建游戏的工作室/个人的名称(例如,Crystal Dynamics)。genres:来自一组可能值的一个或多个类型标签的列表(例如,动作冒险、射击)。player_perspective:游戏可以/可以玩的视角列表(可能值:第一人称、第三人称、侧面视角、鸟瞰视角)。platforms:游戏正式发布的游戏平台列表(可能值:PC、PlayStation、Xbox、Nintendo、Nintendo Switch)。esrb:由 ESRB 确定的游戏内容评级(可能值:E(适用于所有人)、E 10+(适用于 10 岁及以上)、T(适用于青少年)、M(适用于成熟))。rating:根据对话行为,这是游戏平均评级或游戏喜好的分类表示(可能值:优秀、良好、平均、差)。has_multiplayer:指示游戏是否支持多人游戏或只能以单人模式玩(可能值:是、否)。available_on_steam:指示游戏是否可以通过 Steam 数字分销服务购买(可能值:是、否)。has_linux_release:指示游戏是否支持 Linux 操作系统(可能值:是、否)。has_mac_release:指示游戏是否支持 macOS(可能值:是、否)。specifier:由requestDA 使用的游戏指定符,通常是形容词(例如,上瘾、最简单、过高评价、视觉上令人印象深刻)。
每个 MR 在数据集中有 3 个不同的参考话语,表示为 3 个具有相同 MR 的单独示例。
数据分割
ViGGO 分为 3 个分区,训练集和验证集、测试集之间没有共同的 MR(并且在去词汇化 name 和 developer 槽之后)。示例在分区中的比例约为 7.5 : 1 : 1.5,其确切大小如下:
- 训练集: 5,103 个示例(1,675 个唯一 MR)
- 验证集: 714 个示例(238 个唯一 MR)
- 测试集: 1,083 个示例(359 个唯一 MR)
- 总计: 6,900 个示例(2,253 个唯一 MR)
注意:唯一 MR 的数量不是所有示例的三分之一的原因是,对于每个 request_attribute DA(只有一个槽,并且没有值),收集了 12 个参考话语,而不是 3 个。
数据集特点
语言
- 覆盖语言: 英语
- 许可证: cc-by-sa-4.0(Creative Commons Attribution Share Alike 4.0 International)
任务
- 主要任务: 数据到文本生成
- 领域: 视频游戏
数据集来源
数据集创建者
- Juraj Juraska, Kevin K. Bowden, Marilyn Walker
数据集添加到 GEM 的人
- Juraj Juraska
数据集使用
预期用途
ViGGO 旨在用于聊天机器人的数据到文本生成任务(相对于任务导向的对话系统),目标响应更会话而非信息寻求,但受限于意义表示中的信息。数据集相对较小且干净,也可以用于展示神经模型的迁移学习能力。
数据集评估
评估指标
BLEU,METEOR,ROUGE,BERT-Score,BLEURT,SER(槽错误率)
数据集获取
数据加载
python import datasets data = datasets.load_dataset(GEM/viggo)



