five

GEM/viggo

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/viggo
下载链接
链接失效反馈
官方服务:
资源简介:
ViGGO是一个用于数据到文本生成的英文数据集,专注于视频游戏领域。数据集的目标响应更偏向于对话式而非信息检索式,且受限于意义表示中提供的信息。数据集相对较小,包含约5,000个数据点,但非常干净,适合用于评估神经模型的迁移学习、低资源或少量样本能力。数据集的结构包括两个主要字段:`mr`(意义表示)和`ref`(参考输出)。数据集分为训练集、验证集和测试集,比例为7.5:1:1.5。数据集的创建者包括Juraj Juraska、Kevin K. Bowden和Marilyn Walker,数据集由亚马逊Mechanical Turk的众包工人生成,并由数据管理员进行验证。
提供机构:
GEM
原始信息汇总

ViGGO数据集概述

数据集描述

  • 语言: 英语
  • 许可证: Creative Commons Attribution Share Alike 4.0 International (cc-by-sa-4.0)
  • 目的: 用于数据-到-文本生成任务,特别是在视频游戏领域的聊天机器人中,生成更偏向于对话而非信息查询的响应。
  • 主要任务: 数据-到-文本

数据集结构

数据字段

  • mr: 意义表示(MR),提供要传达的信息以及所需的对话行为(DA)类型。
  • ref: 参考输出,即实现MR中所有信息的相应话语。

数据分割

  • 训练集: 5,103个样本(1,675个唯一MRs)
  • 验证集: 714个样本(238个唯一MRs)
  • 测试集: 1,083个样本(359个唯一MRs)
  • 总计: 6,900个样本(2,253个唯一MRs)

数据集创建者

  • Juraj Juraska
  • Kevin K. Bowden
  • Marilyn Walker

联系信息

  • 联系人: Juraj Juraska
  • 电子邮件: jjuraska@ucsc.edu

数据集来源

  • 原始数据: 通过Amazon Mechanical Turk进行众包收集。
  • 数据验证: 由数据管理员验证。

数据集使用

  • 用途: 用于评估神经模型的转移学习、低资源或少样本能力。
  • 领域: 视频游戏

数据集加载

python import datasets data = datasets.load_dataset(GEM/viggo)

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作