SportsGen
收藏Hugging Face2024-10-03 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/huuuyeah/SportsGen
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于分析体育叙事,评估大型语言模型在推理和信息聚合方面的能力。数据集包含真实的NBA篮球数据,并提出了一个新的方法——SportsGen,用于合成比赛叙事。数据集的配置包括多个不同的分割,每个分割对应不同的CSV文件,这些文件包含了体育叙事的详细信息。数据集的实例格式包括实例ID、系统消息、提示消息和真实数据。数据集的目标是通过合成数据来严格评估LLM在复杂场景下的推理能力,特别是关于篮球得分信息的准确聚合。
创建时间:
2024-10-03
原始信息汇总
SportsGen 数据集
基本信息
- 许可证: MIT
- 任务类别:
- 问答
- 文本生成
- 语言: 英语
- 标签:
- 体育
- 分析推理
- 基准测试
- 大型语言模型 (LLM)
- 数据规模: 10K < n < 100K
配置
-
config_name: real
- 数据文件:
- split: DnC1
- 路径:
test/human_narratives/DnC1.csv
- 路径:
- split: DnC3
- 路径:
test/human_narratives/DnC3.csv
- 路径:
- split: DnC10
- 路径:
test/human_narratives/DnC10.csv
- 路径:
- split: DnC30
- 路径:
test/human_narratives/DnC30.csv
- 路径:
- split: DnCP
- 路径:
test/human_narratives/DnC-P.csv
- 路径:
- split: Mono
- 路径:
test/human_narratives/Mono.csv
- 路径:
- split: DnC1
- 数据文件:
-
config_name: oneshot
- 数据文件:
- split: DnCP
- 路径:
test/oneshot/DnC-P.csv
- 路径:
- split: DnCP
- 数据文件:
-
config_name: sportsgen
- 数据文件:
- split: DnCP
- 路径:
test/sportsgen/DnC-P.csv
- 路径:
- split: anonymous
- 路径:
test/sportsgen/Mono-anonymous.csv
- 路径:
- split: ratio_12
- 路径:
test/sportsgen/Mono-ratio_12.csv
- 路径:
- split: ratio_13
- 路径:
test/sportsgen/Mono-ratio_13.csv
- 路径:
- split: ratio_14
- 路径:
test/sportsgen/Mono-ratio_14.csv
- 路径:
- split: ratio_15
- 路径:
test/sportsgen/Mono-ratio_15.csv
- 路径:
- split: DnCP
- 数据文件:
数据实例格式
json { "instance_id": "game_11_1_1", "system_msg": "You are a helpful assistant tasked with analyzing sports games...", "prompt_msg": "Analyze the team-player affiliations and play-by-play descriptions...", "truth": {"team1": 22, "team2": 19} }
使用示例
python from datasets import load_dataset
dataset = load_dataset("huuuyeah/SportsGen", "real", split="DnC10")
搜集汇总
数据集介绍

构建方式
SportsGen数据集的构建基于真实NBA篮球比赛数据,通过合成比赛叙述的方式生成多样化的数据实例。研究者设计了多种配置,包括真实比赛叙述(real)、一次性生成(oneshot)以及特定比例的合成叙述(sportsgen),以覆盖不同信息密度和复杂度的场景。每个数据实例包含比赛ID、系统提示、分析任务提示以及真实得分结果,确保数据能够全面评估大语言模型在信息聚合和推理任务中的表现。
特点
SportsGen数据集的特点在于其专注于体育比赛叙述的分析任务,要求模型从复杂的比赛描述中提取关键信息,如球员与球队的关联、得分统计等。数据集包含多种叙述长度和信息密度,能够有效测试模型在不同复杂度下的推理能力。此外,数据集还揭示了现有模型在频繁得分模式下的局限性,尤其是开源模型在得分幻觉问题上的表现。
使用方法
使用SportsGen数据集时,用户可通过Hugging Face的`datasets`库加载数据。例如,加载真实比赛叙述配置中的`DnC10`分片,可通过`load_dataset('huuuyeah/SportsGen', 'real', split='DnC10')`实现。数据集支持多种配置和分片,用户可根据需求选择适合的数据进行实验,以评估模型在体育叙述分析任务中的表现。
背景与挑战
背景概述
SportsGen数据集由Yebowen Hu等研究人员于2024年提出,旨在探索大语言模型(LLM)在信息聚合与推理任务中的表现,特别是在体育叙事分析中的应用。该数据集的核心研究问题在于如何通过复杂的体育叙事数据,评估LLM在推理过程中准确聚合信息的能力。研究人员通过合成NBA篮球比赛数据,构建了包含不同叙事长度和信息密度的任务场景,以全面测试模型的推理能力。该数据集在自然语言处理领域具有重要意义,尤其是在信息聚合与推理任务中,为未来的研究提供了新的基准和挑战。
当前挑战
SportsGen数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,体育叙事分析要求模型能够从复杂的比赛描述中准确推断出关键信息,如球员得分、球队表现等,这对模型的推理能力和信息聚合能力提出了极高的要求。其次,在数据集构建过程中,研究人员需要合成大量具有不同信息密度和叙事复杂度的数据,以确保评估的全面性和严谨性。此外,现有模型在处理高频得分模式和领域特定术语时,容易出现得分幻觉和推理错误,这进一步凸显了该任务的难度。
常用场景
经典使用场景
SportsGen数据集在自然语言处理领域,尤其是在大型语言模型(LLM)的推理能力评估中,展现了其独特的价值。该数据集通过合成体育比赛叙事,要求模型从复杂的比赛描述中提取关键信息,如球员得分、球队表现等,从而评估模型在信息聚合和推理任务中的表现。这一场景不仅适用于学术研究,也为模型在实际应用中的优化提供了重要参考。
解决学术问题
SportsGen数据集解决了LLM在复杂信息聚合任务中的表现评估问题。通过模拟真实的NBA比赛数据,该数据集揭示了模型在处理高频得分模式时的局限性,尤其是开源模型如Llama-3在得分幻觉方面的显著问题。这一研究为改进模型在特定领域的推理能力提供了实证基础,推动了自然语言处理技术在复杂场景中的应用。
衍生相关工作
SportsGen数据集的研究成果催生了一系列相关经典工作,特别是在LLM推理能力评估和体育叙事生成领域。例如,基于该数据集的研究进一步探索了模型在不同叙事长度和信息密度下的表现,推动了模型在复杂场景中的优化。此外,相关研究还扩展到了其他体育项目,如足球和网球,为多领域的信息聚合任务提供了新的研究思路。
以上内容由遇见数据集搜集并总结生成



