GEM/viggo
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/viggo
下载链接
链接失效反馈官方服务:
资源简介:
ViGGO是一个用于数据到文本生成的英文数据集,专注于视频游戏领域。数据集的目标响应更偏向于对话式而非信息检索式,且受限于意义表示中提供的信息。数据集相对较小,包含约5,000个数据点,但非常干净,适合用于评估神经模型的迁移学习、低资源或少量样本能力。数据集的结构包括两个主要字段:`mr`(意义表示)和`ref`(参考输出)。数据集分为训练集、验证集和测试集,比例为7.5:1:1.5。数据集的创建者包括Juraj Juraska、Kevin K. Bowden和Marilyn Walker,数据集由亚马逊Mechanical Turk的众包工人生成,并由数据管理员进行验证。
提供机构:
GEM
原始信息汇总
ViGGO数据集概述
数据集描述
- 语言: 英语
- 许可证: Creative Commons Attribution Share Alike 4.0 International (cc-by-sa-4.0)
- 目的: 用于数据-到-文本生成任务,特别是在视频游戏领域的聊天机器人中,生成更偏向于对话而非信息查询的响应。
- 主要任务: 数据-到-文本
数据集结构
数据字段
mr: 意义表示(MR),提供要传达的信息以及所需的对话行为(DA)类型。ref: 参考输出,即实现MR中所有信息的相应话语。
数据分割
- 训练集: 5,103个样本(1,675个唯一MRs)
- 验证集: 714个样本(238个唯一MRs)
- 测试集: 1,083个样本(359个唯一MRs)
- 总计: 6,900个样本(2,253个唯一MRs)
数据集创建者
- Juraj Juraska
- Kevin K. Bowden
- Marilyn Walker
联系信息
- 联系人: Juraj Juraska
- 电子邮件: jjuraska@ucsc.edu
数据集来源
- 原始数据: 通过Amazon Mechanical Turk进行众包收集。
- 数据验证: 由数据管理员验证。
数据集使用
- 用途: 用于评估神经模型的转移学习、低资源或少样本能力。
- 领域: 视频游戏
数据集加载
python import datasets data = datasets.load_dataset(GEM/viggo)
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



