nir-yar/nba-pbp-to-recap

Name: nir-yar/nba-pbp-to-recap
Creator: nir-yar
Published: 2024-05-31 13:48:45
License: 暂无描述

Hugging Face2024-05-31 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/nir-yar/nba-pbp-to-recap

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为NBA Play-By-Play to Recap，主要用于摘要生成任务。数据集包含NBA比赛的逐场记录和人类撰写的比赛回顾。数据集分为训练集、测试集、验证集和无监督集，分别包含不同赛季的NBA常规赛比赛数据。数据集的列包括metadata（主队、客队和比赛时间）、input（比赛的逐场记录字符串）和output（人类撰写的比赛回顾）。训练集、测试集和验证集包含2019-20至2023-24赛季的比赛数据，按80%、10%、10%的比例划分。无监督集包含1996-97至2018-19赛季的比赛数据，仅有metadata和input，output字段为空字符串。

提供机构：

nir-yar

原始信息汇总

数据集概述

基本信息

许可: Apache-2.0
任务类别: 摘要生成
语言: 英语
标签: 体育
美观名称: NBA Play-By-Play to Recap

数据配置

配置名称: default
数据文件:
- 训练集: train.zip
- 测试集: test.zip
- 验证集: validation.zip
- 无监督学习集: unsupervised.zip

数据集结构

训练集: 4593条记录
测试集: 574条记录
验证集: 574条记录
无监督学习集: 27257条记录

数据集内容

列信息:
- metadata: 包含主队、客队和比赛时间
- input: 比赛实况描述
- output: 人类编写的比赛回顾

数据集分布

训练-测试-验证集:
- 包含赛季: 2019-20, 2020-21, 2021-22, 2022-23, 2023-24
- 比例: 80%, 10%, 10%
无监督学习集:
- 包含赛季: 1996-97 至 2018-19
- 仅包含metadata和input，output为空字符串

搜集汇总

数据集介绍

构建方式

在体育数据分析领域，NBA赛事数据的结构化处理为自然语言生成任务提供了丰富素材。本数据集通过系统采集2019至2024五个赛季的NBA常规赛实录，将每场比赛的实时文字解说与人工撰写的赛事回顾进行精准对齐，构建出包含4593条训练样本的平行语料库。数据划分遵循80%-10%-10%的比例原则，同时额外整合1996至2019年间的历史赛事数据形成无监督数据集，通过时间跨度的精心设计实现了训练资源的梯度分布。

特点

该数据集最显著的特征在于其多层次的结构化信息呈现，每条记录均包含完整的元数据层（主客队信息、球员名单、比赛时间）、原始输入层（逐场文字解说流）以及目标输出层（人工撰写的赛事总结）。这种三维数据结构不仅保留了体育赛事特有的时序动态特征，更通过人工标注的优质摘要为模型学习提供了语义锚点。数据的时间跨度设计体现了渐进式演进逻辑，近五年数据构成监督学习核心，早期历史数据则形成辅助训练资源，共同构建出体育文本生成的时空坐标系。

使用方法

针对体育文本生成的研究需求，该数据集支持多种应用范式。监督学习部分可直接用于训练端到端的赛事摘要生成模型，通过输入层的实时解说文本预测输出层的结构化赛事回顾。无监督数据集则为预训练任务提供补充语料，研究者可基于历史赛事数据开发领域自适应技术。在具体实施时，建议采用分层抽样策略处理时间序列特征，并利用元数据字段实现队伍风格、球员特性等细粒度控制变量的建模，最终构建能够理解篮球赛事语义结构的智能生成系统。

背景与挑战

背景概述

在体育分析领域，将比赛过程数据转化为连贯的叙事性总结一直是一项具有挑战性的任务。NBA Play-By-Play to Recap数据集由nir-yar团队创建，专注于解决体育文本自动摘要的核心研究问题。该数据集系统地收集了从1996-97赛季至2023-24赛季的NBA常规赛数据，通过结构化地整合比赛元数据、逐场文字实录与人工撰写的赛事回顾，为自然语言处理技术在体育领域的应用提供了重要资源。其构建体现了对时序事件序列到叙述性文本转换的深入探索，显著推动了体育新闻自动生成与赛事分析智能化的发展。

当前挑战

该数据集旨在解决体育文本自动摘要的挑战，即如何将冗长、细粒度的比赛过程数据转化为简洁、连贯且具有故事性的赛事回顾。这要求模型不仅能准确提取关键事件，还需理解比赛节奏、转折点及叙事逻辑。在构建过程中，挑战主要来自数据对齐与质量保障：需将非结构化的逐场文字实录与人工撰写的总结进行精确匹配，并确保跨多个赛季的数据格式一致性；同时，人工总结的风格差异与语言多样性也对数据集的标准化处理提出了较高要求。

常用场景

经典使用场景

在体育分析领域，该数据集为自然语言处理任务提供了宝贵的资源。其经典使用场景聚焦于文本摘要生成，模型通过学习篮球比赛的逐场文字记录，自动生成结构完整、内容连贯的赛事回顾。这一过程不仅要求模型理解复杂的体育术语和事件序列，还需捕捉比赛中的关键转折点与高潮时刻，从而实现对原始数据的精炼与重构。

实际应用

在实际应用中，该数据集支撑了智能体育内容生成系统的开发。媒体机构可利用基于该数据训练的模型，快速将海量比赛数据转化为易于传播的新闻稿件或视频解说脚本，大幅提升内容生产效率。同时，体育数据平台能够为球迷提供个性化的比赛精华摘要，增强用户体验，并在教育场景中辅助教练与分析师进行战术复盘与案例研究。

衍生相关工作

围绕该数据集，衍生出一系列经典研究工作。例如，研究者探索了基于Transformer的序列到序列模型在体育摘要任务上的性能，并引入了注意力机制以聚焦关键比赛事件。后续工作进一步结合图神经网络对球员互动进行建模，或利用强化学习优化摘要的流畅度与信息密度。这些研究不仅丰富了体育文本处理的方法体系，也为通用领域的长文档摘要技术提供了有益的借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集