GEM/RotoWire_English-German
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/RotoWire_English-German
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个篮球领域的数据到文本数据集,输入是固定格式的表格,包含比赛的统计数据(英文),目标是原始英文描述的德文翻译。翻译由具有篮球经验的专业翻译人员完成。该数据集可用于评估模型在复杂输入下的跨语言数据到文本能力。数据集的结构包括比赛日期、主队和客队信息、比赛统计数据、英文和德文的摘要等字段。数据集分为训练集、验证集和测试集,拆分标准遵循原始RotoWire数据集。
提供机构:
GEM
原始信息汇总
数据集概述
数据集描述
- 名称: RotoWire_English-German
- 类型: 数据-文本生成数据集
- 领域: 篮球
- 语言: 英语, 德语
- 许可: cc-by-4.0
- 目的: 用于评估模型的跨语言数据-文本生成能力,特别是从英语表格数据到德语文本的转换。
数据集结构
- 数据字段:
id: 原始数据集的标识符。gem_id: GEMv2的标识符。day: 比赛日期。home_name: 主队名称。home_city: 主队城市名称。vis_name: 客队名称。vis_city: 客队城市名称。home_line: 主队统计数据。vis_line: 客队统计数据。box_score: 得分表。summary_en: 英语目标摘要。sentence_end_index_en: 英语摘要的句子结束索引。summary_de: 德语目标摘要。sentence_end_index_de: 德语摘要的句子结束索引。
数据集使用
- 主要任务: 数据-文本生成
- 通信目标: 描述篮球比赛,基于其得分表(及可能的外语摘要)。
数据集来源
- 创建者: Graham Neubig (卡内基梅隆大学), Hiroaki Hayashi (卡内基梅隆大学)
- 资金: Graham Neubig
- 组织类型: 学术
- 组织: 卡内基梅隆大学
数据集维护
- 联系人: Hiroaki Hayashi
- 联系邮箱: hiroakih@andrew.cmu.edu
数据集许可
- 许可类型: cc-by-4.0
数据集加载
- 加载方式: 使用
datasets库加载数据集,例如:datasets.load_dataset(GEM/RotoWire_English-German)
数据集在GEM中的作用
- 贡献: 使用两种模态(数据,外语文本)生成文档级文本摘要。
- 独特性: 覆盖其他数据集未覆盖的语言,使用两种模态作为输入。
- 测量能力: 翻译,数据-文本生成,以及两者的结合。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



