five

GEM/RotoWire_English-German

收藏
Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/RotoWire_English-German
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个篮球领域的数据到文本数据集,输入是固定格式的表格,包含比赛的统计数据(英文),目标是原始英文描述的德文翻译。翻译由具有篮球经验的专业翻译人员完成。该数据集可用于评估模型在复杂输入下的跨语言数据到文本能力。数据集的结构包括比赛日期、主队和客队信息、比赛统计数据、英文和德文的摘要等字段。数据集分为训练集、验证集和测试集,拆分标准遵循原始RotoWire数据集。
提供机构:
GEM
原始信息汇总

数据集概述

数据集描述

  • 名称: RotoWire_English-German
  • 类型: 数据-文本生成数据集
  • 领域: 篮球
  • 语言: 英语, 德语
  • 许可: cc-by-4.0
  • 目的: 用于评估模型的跨语言数据-文本生成能力,特别是从英语表格数据到德语文本的转换。

数据集结构

  • 数据字段:
    • id: 原始数据集的标识符。
    • gem_id: GEMv2的标识符。
    • day: 比赛日期。
    • home_name: 主队名称。
    • home_city: 主队城市名称。
    • vis_name: 客队名称。
    • vis_city: 客队城市名称。
    • home_line: 主队统计数据。
    • vis_line: 客队统计数据。
    • box_score: 得分表。
    • summary_en: 英语目标摘要。
    • sentence_end_index_en: 英语摘要的句子结束索引。
    • summary_de: 德语目标摘要。
    • sentence_end_index_de: 德语摘要的句子结束索引。

数据集使用

  • 主要任务: 数据-文本生成
  • 通信目标: 描述篮球比赛,基于其得分表(及可能的外语摘要)。

数据集来源

  • 创建者: Graham Neubig (卡内基梅隆大学), Hiroaki Hayashi (卡内基梅隆大学)
  • 资金: Graham Neubig
  • 组织类型: 学术
  • 组织: 卡内基梅隆大学

数据集维护

  • 联系人: Hiroaki Hayashi
  • 联系邮箱: hiroakih@andrew.cmu.edu

数据集许可

  • 许可类型: cc-by-4.0

数据集加载

  • 加载方式: 使用datasets库加载数据集,例如:datasets.load_dataset(GEM/RotoWire_English-German)

数据集在GEM中的作用

  • 贡献: 使用两种模态(数据,外语文本)生成文档级文本摘要。
  • 独特性: 覆盖其他数据集未覆盖的语言,使用两种模态作为输入。
  • 测量能力: 翻译,数据-文本生成,以及两者的结合。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作