GEM/sportsett_basketball
收藏Hugging Face2022-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GEM/sportsett_basketball
下载链接
链接失效反馈官方服务:
资源简介:
sportsett数据集是一个英语的数据到文本生成数据集,专注于篮球领域。输入是NBA比赛的统计数据,输出是高质量的自然语言描述。数据集的结构包括五个字段:sportsett_id、gem_id、game、teams和summaries。数据集的创建目的是为了维护一个健壮和可扩展的数据到文本生成资源,包含结构化数据和文本摘要。数据集由Craig Thomson和Ashish Upadhyay创建,由EPSRC资助,并由University of Aberdeen和Robert Gordon University进行管理。
The SportSett dataset is an English-language data-to-text generation dataset focused on the basketball domain. Its inputs are the statistical data of NBA games, while its outputs are high-quality natural language descriptions. The dataset consists of five fields: sportsett_id, gem_id, game, teams, and summaries. The dataset was created to maintain a robust and scalable data-to-text generation resource that includes structured data and textual summaries. It was developed by Craig Thomson and Ashish Upadhyay, funded by EPSRC, and managed by the University of Aberdeen and Robert Gordon University.
提供机构:
GEM
原始信息汇总
数据集概述
数据集名称
- 名称: sportsett_basketball
- 别名: GEM/sportsett_basketball
数据集描述
- 类型: 数据-到-文本(Data-to-Text)
- 领域: 篮球
- 语言: 英语
- 输入: NBA比赛统计数据
- 输出: 高质量的自然语言比赛描述
数据集来源
- 来源类型: 原始数据
- 数据加载: python import datasets data = datasets.load_dataset(GEM/sportsett_basketball)
数据集结构
- 字段:
- sportsett_id: 原始SportSett数据库中的唯一ID。
- gem_id: 遵循
GEM-${DATASET_NAME}-${SPLIT-NAME}-${id}模式的唯一ID。 - game: 包含比赛日期、地点等信息的字典。
- teams: 包含主队和客队统计信息的字典。
- summaries: 比赛描述的列表,每个比赛可能有多个描述。
数据集使用
- 目的: 维护一个健壮和可扩展的数据-到-文本生成资源,具有结构化数据和文本摘要。
- 主要任务: 数据-到-文本生成
数据集许可证
- 许可证: MIT License
数据集联系信息
- 联系人: Craig Thomson
- 联系邮箱: c.thomson@abdn.ac.uk
数据集创建者
- 创建者: Craig Thomson, Ashish Upadhyay
- 资助机构: EPSRC
数据集语言和多语言性
- 语言: 英语
- 多语言性: 单语言(英语)
数据集组织
- 组织类型: 学术
- 组织: 阿伯丁大学, 罗伯特戈登大学
数据集标签
- 标签: 数据-到-文本
数据集示例
- 示例: json { "sportsett_id": "1", "gem_id": "GEM-sportsett_basketball-train-0", "game": {...}, "teams": {...}, "summaries": [...] }
以上概述提供了关于sportsett_basketball数据集的关键信息,包括其结构、用途、许可证和联系信息。
搜集汇总
数据集介绍

构建方式
在体育信息处理领域,数据到文本生成任务对结构化数据的质量与规模提出了较高要求。GEM/sportsett_basketball数据集的构建借鉴了RotoWire数据集的经典框架,通过系统化采集NBA比赛的结构化统计信息,并配以专业体育记者撰写的自然语言摘要。该数据集以比赛为核心单元,整合了球队与球员的详细技术统计、赛事元数据以及后续赛程信息,形成了层次分明的多字段数据结构。构建过程中注重信息的完整性与一致性,确保了输入数据与输出文本之间的对应关系清晰可靠,为数据到文本生成研究提供了坚实的实验基础。
特点
该数据集在篮球领域的数据到文本生成任务中展现出鲜明的专业特性。其输入部分囊括了比赛日期、场馆、球队胜负记录、球员技术统计等丰富的结构化信息,覆盖了整场比赛以及各节次、半场的详细数据。输出部分则由高质量的自然语言摘要构成,这些摘要通常遵循体育报道的典型叙事结构,从比赛结果、关键因素到球员表现逐层展开。数据集的结构设计特别注重解决输入与输出之间的信息对齐问题,通过引入比赛与后续赛程等字段,增强了上下文信息的连贯性,为模型理解比赛动态与生成连贯文本提供了充分支持。
使用方法
研究人员可通过Hugging Face的datasets库便捷加载该数据集,使用标准接口即可访问训练、验证与测试划分。每个数据实例包含唯一的标识符、比赛元数据、球队与球员的详细统计字典以及对应的文本摘要列表。在模型训练与评估过程中,可将结构化的比赛数据作为输入,以自然语言摘要作为生成目标,适用于序列到序列等生成式架构。数据集的标准化格式便于与现有自然语言处理流程集成,支持对生成文本的事实一致性、流畅度等指标进行量化分析,推动数据到文本生成技术在体育领域的应用与发展。
背景与挑战
背景概述
在自然语言生成领域,数据到文本任务旨在将结构化数据转化为流畅的自然语言描述。GEM/sportsett_basketball数据集由Craig Thomson与Ashish Upadhyay等研究人员于2020年创建,隶属于阿伯丁大学与罗伯特戈登大学的学术项目,并得到EPSRC资助。该数据集聚焦于篮球领域,以NBA比赛统计数据为输入,生成高质量的比赛摘要文本,旨在构建一个稳健且可扩展的数据到文本生成资源,推动了体育领域自动化报告生成的研究进展。
当前挑战
该数据集致力于解决数据到文本生成中的核心挑战,即如何从复杂的结构化比赛统计数据中提取关键信息,并生成连贯、准确且符合人类写作风格的叙述文本。构建过程中面临的主要挑战包括确保数据与文本之间的信息对齐,避免生成内容出现事实性错误或遗漏重要细节,同时需处理大量嵌套的统计字段,并维持数据结构的完整性与一致性,以支持模型的有效训练与评估。
常用场景
经典使用场景
在自然语言生成领域,SportSett篮球数据集为数据到文本转换任务提供了经典范例。该数据集将NBA比赛的统计数据作为输入,输出高质量的自然语言描述,其结构设计借鉴了RotoWire数据集,并针对篮球领域进行了优化。研究者通常利用该数据集训练模型,使其能够从复杂的结构化数据中生成连贯、准确的比赛总结,这为评估生成模型的叙事能力和事实一致性设立了基准。
解决学术问题
SportSett篮球数据集有效解决了数据到文本生成中的信息鸿沟问题。传统模型往往难以将结构化统计数据转化为流畅文本,该数据集通过提供详尽的比赛信息与对应摘要,促进了模型在内容选择、事实表述和叙事结构方面的研究。其存在推动了自然语言生成领域对可解释性、忠实度和语言质量的深入探讨,为构建更可靠的生成系统奠定了数据基础。
衍生相关工作
围绕SportSett篮球数据集,学术界衍生了一系列经典研究工作。这些研究不仅探索了基于Transformer的端到端生成模型,还深入研究了内容规划、事实核查和可控生成等子任务。部分工作将该数据集与RotoWire等资源进行对比分析,以评估模型在不同领域的泛化能力。此外,该数据集也被用于评测大型语言模型在结构化数据理解与文本生成方面的性能,持续推动数据到文本技术的前沿发展。
以上内容由遇见数据集搜集并总结生成



