football-scouting-synthetic

Hugging Face2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/talcabalo/football-scouting-synthetic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含10,000个合成的足球运动员数据，旨在用于球探、分析和球员搜索应用。每个球员包括位置感知的数值统计、模拟市场价值、衍生的定性特征和由Hugging Face语言模型生成的自然语言球探报告。数据集是通过位置感知的概率模拟和Hugging Face的`google/flan-t5-small`模型生成的文本报告创建的，具有内部一致性和下游可用性。数据集适用于球员搜索和推荐引擎、球探和招聘模拟、体育分析教育以及结构化与非结构化体育数据的NLP任务。

This dataset contains 10,000 synthetic football player data entries, designed for scouting, analytics, and player search applications. Each player entry includes position-aware numerical statistics, simulated market value, derived qualitative characteristics, and natural-language scouting reports generated by Hugging Face language models. The dataset was constructed via position-aware probabilistic simulations and text reports generated by Hugging Face's `google/flan-t5-small` model, featuring internal consistency and downstream usability. This dataset is applicable to player search and recommendation engines, scouting and recruitment simulations, sports analytics education, and NLP tasks involving structured and unstructured sports data.

创建时间：

2026-01-21

原始信息汇总

Football Scouting – Synthetic Player Market Dataset (2025/26) 数据集概述

数据集简介

该数据集包含10,000名合成足球运动员，专为球探、分析和球员搜索应用而设计。每个球员包含基于位置的数值统计数据、模拟市场价值、衍生的定性特征以及使用预训练的Hugging Face语言模型生成的自然语言球探报告。该数据集是作为数据科学最终项目的一部分创建的，强调真实性、内部一致性以及面向分析和AI驱动应用的下游可用性。

数据生成方法

数值模拟

球员档案使用基于位置的概率模拟生成：

位置：GK、CB、RB、LB、CM、RW、LW、ST
年龄范围：17–35岁
市场价值遵循重尾分布（少数超级巨星，多数普通球员）
比赛统计数据具有角色特异性（例如，防守者与攻击者）所有统计数据在内部保持一致（例如，射正次数 ≤ 射门次数）。

文本生成

自然语言球探报告使用Hugging Face的**google/flan-t5-small**模型生成。

每份报告包含2–3个完整句子
报告描述了优势和一项局限性
不提及俱乐部、联赛或合成数据
文本生成在GPU上执行在探索性数据分析中，发现初始报告的一个子集过于简洁或技术化。这些行使用更严格的提示进行了选择性重新生成，从而在100%的数据集中实现了完全标点化的句子级报告。

数据集模式（选定字段）

列名	描述
player_id	唯一球员标识符
player_name	合成球员姓名
age	球员年龄
nationality	球员国籍
position	场上位置
market_value_m	市场价值（单位：百万欧元）
goals, assists, shots, shots_on_target	进攻统计数据
passes_attempted, pass_accuracy, key_passes	传球统计数据
tackles, interceptions	防守动作
dribbles_attempted, dribbles_completed	盘带指标
aerial_duels_attempted, aerial_duels_won	空中能力
turnovers	丢球指标
traits	衍生的定性属性（列表）
scout_report	自然语言球探报告

探索性数据分析关键发现

各位置分布均衡
市场价值呈现现实主义的右偏分布
特定位置的统计特征与现实足球角色相符
清洗后无缺失球探报告
所有逻辑约束均通过完整性检查（例如，完成动作 ≤ 尝试动作）完整的探索性数据分析过程记录在随附的笔记本中。

预期用途

该数据集适用于：

球员搜索和推荐引擎
球探和招募模拟
体育分析教育
结构化与非结构化体育数据的自然语言处理任务

局限性

数据集完全为合成数据，不代表真实球员
生成的报告可能重复使用相似的语言模式
不包含按时间顺序的逐场比赛数据

包含文件

players_synthetic_v2.parquet – 主数据集
players_synthetic_v2.csv – CSV版本
synthetic_data_generation.ipynb – 合成数据生成代码
eda.ipynb – 探索性数据分析代码

搜集汇总

数据集介绍

构建方式

在足球数据分析领域，构建高质量且符合现实逻辑的数据集对于推进球员侦察与市场评估研究至关重要。该数据集通过位置感知的概率模拟方法生成，涵盖了守门员至前锋等八个关键位置，年龄范围设定为17至35岁，以反映职业球员的典型生涯分布。市场价值采用重尾分布模拟，精准捕捉了足坛少数巨星与大量普通球员并存的经济结构。所有统计指标均遵循内部一致性原则，例如射正次数不超过总射门数，确保了数据的逻辑严谨性。文本部分则基于Hugging Face的预训练语言模型生成自然语言侦察报告，经过迭代优化后，实现了全数据集语句通顺、标点完整的描述性文本。

特点

本数据集的核心特点在于其高度结构化的多模态设计，将数值统计与文本描述有机结合，为足球分析提供了多维视角。数值层面，每个球员档案包含进球、助攻、传球准确率等角色特异性指标，这些数据经过探索性分析验证，呈现出符合真实足球角色的分布规律，市场价值曲线亦体现了现实世界中右偏斜的财富集中现象。文本层面，自动生成的侦察报告聚焦于球员优势与一项局限，避免了俱乐部或联赛等虚构参照，语言风格统一且信息密度适中。整体数据经过完整性校验，不存在缺失值或逻辑冲突，确保了后续分析的可信度与流畅性。

使用方法

该数据集适用于多种足球数据分析与人工智能应用场景。在球员搜索与推荐系统开发中，研究者可结合市场价值与技术统计构建协同过滤模型，或利用自然语言报告增强语义匹配能力。对于侦察模拟与招募研究，可通过聚类分析识别球员潜力类型，或训练分类模型预测位置适应性。在体育分析教育领域，数据集提供的干净且一致的字段便于开展统计建模与可视化教学。此外，结合结构化指标与文本报告的独特设计，也为自然语言处理任务提供了跨模态学习的实验基础，例如从数值特征生成侦察摘要或进行球员特质抽取。

背景与挑战

背景概述

足球运动数据分析领域长期依赖于真实比赛数据，但此类数据往往涉及隐私与版权限制，难以广泛获取与共享。为推进足球人才发掘与体育分析研究，2025年由数据科学项目团队创建了Football Scouting – Synthetic Player Market Dataset。该数据集通过合成方法模拟了10,000名虚拟足球运动员的详细资料，涵盖位置感知的数值统计、模拟市场价值及自然语言球探报告，旨在为球员搜索、推荐系统及体育分析教育提供高质量、内部一致且可自由使用的基准数据。其生成过程结合了概率模拟与预训练语言模型，体现了数据合成技术在解决体育数据稀缺性问题上的创新应用。

当前挑战

该数据集致力于解决足球人才评估与球员市场分析中的核心挑战，即如何在缺乏大规模真实数据的情况下，构建具有现实统计分布与语义深度的球员画像。具体挑战包括：确保合成数据在位置特异性统计（如防守与进攻指标）间的内部逻辑一致性，模拟符合真实世界重尾分布的市场价值，以及生成自然、多样且无重复模式的球探报告文本。在构建过程中，团队面临生成报告可能过于简略或技术化的难题，需通过迭代提示工程优化语言模型输出，以实现所有报告均为完整句子的高质量文本生成。

常用场景

经典使用场景

在体育数据科学领域，该数据集为球员搜索与推荐系统的开发提供了理想的基础。通过整合数值统计与自然语言球探报告，研究人员能够模拟真实世界的球探流程，构建基于多模态数据的球员画像。典型应用包括设计算法，根据位置、市场价值及技术特质自动筛选潜在目标，从而辅助俱乐部在转会市场中做出数据驱动的决策。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态学习与推荐算法上。例如，研究者开发了结合数值属性与球探报告的神经网络模型，以提升球员匹配的准确性。同时，基于其合成数据生成流程，出现了改进文本生成一致性的方法，确保报告与统计数据的逻辑对齐。这些工作推动了体育分析中合成数据应用的标准化与创新。

数据集最近研究