big5-football-scouting

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/talcabalo/big5-football-scouting

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个高质量的合成足球球探数据集，模拟了欧洲五大联赛（英超、西甲、意甲、德甲、法甲）的职业球员。数据集包含了10,000个合成球员档案，每个档案包含球员的姓名、联赛、角色、年龄、比赛分钟数、偏好脚、市场价值、每90分钟的表现指标（如进球、助攻、射门等）、传球完成率、空中对抗胜率以及风格标签和简短的专业球探总结。数据集旨在用于数据分析、相似性搜索和AI驱动的推荐系统，适用于教育、分析和原型设计目的。

创建时间：

2026-01-20

原始信息汇总

数据集概述

基本信息

数据集名称：Football Player Scouting Dataset — Big 5 European Leagues
数据集类型：结构化表格数据与自然语言文本
样本数量：10,000 个合成球员档案
覆盖联赛：英超、西甲、意甲、德甲、法甲
球员角色：门将、中后卫、左后卫、右后卫、防守型中场、中场、攻击型中场、左边锋、右边锋、前锋
语言：英语
市场价值范围：1 至 1.2 亿欧元

数据模式

每一行代表一名足球球员，包含以下字段：

身份信息

player_name：虚构但真实的球员姓名
league：球员效力的联赛
role：主要比赛位置

人口统计与可用性

age：球员年龄（16–38岁）
minutes_played：赛季出场分钟数
preferred_foot：惯用脚（左脚/右脚/双脚）

市场估值

market_value_m：估计市场价值（百万欧元）

表现指标（每90分钟）

goals_per90：每90分钟进球数
assists_per90：每90分钟助攻数
shots_per90：每90分钟射门数
progressive_passes_per90：每90分钟向前传球数
tackles_won_per90：每90分钟成功抢断数
interceptions_per90：每90分钟拦截数

效率与身体素质

pass_completion_pct：传球成功率
aerial_duels_won_pct：空中对抗成功率

文本球探信息

style_tags：简短的球探描述标签列表
bio：两句话的专业球探总结，描述比赛风格、优势、劣势和预算适用性

数据生成方法

数据集采用混合方法生成，结合了确定性统计建模与受控语言模型生成。

数值特征生成

基于足球领域知识定义了特定角色的统计分布。
硬性约束确保了真实性。
市场价值动态考虑了峰值年龄后的价值折旧。

文本特征生成

使用 Hugging Face 大语言模型专门生成 style_tags 和 bio。
文本生成被约束为简短、结构化的输出。
生成后经过验证和清理，确保所有文本字段完整、专业且统一。

探索性数据分析要点

市场价值分布：呈现长尾分布，大多数球员集中在低至中等估值范围。
不同角色的市场价值：攻击型角色表现出更高的中位市场价值和更大的方差。
年龄与市场价值：市场价值遵循清晰的职业生涯生命周期模式。
进攻输出与市场价值：市场价值与每90分钟进球数之间的关系是非线性的。

文件列表

players_synth.jsonl：主数据集文件
players_synth.csv：用于分析的 CSV 版本
players_synth.parquet：为机器学习工作流程优化的格式
EDA.ipynb：探索性数据分析笔记本
synthetic_data_generation.ipynb：数据集生成笔记本

在线演示

可通过以下链接访问实时的球探探索应用程序：https://huggingface.co/spaces/talcabalo/football-scout-recommender

预期用途

使用嵌入进行球员相似性搜索
基于预算的球员推荐系统
足球球探分析与可视化
数据科学与体育分析的教育项目

局限性

数据集是合成的，不代表真实球员。
市场价值是指示性的且经过简化。
未对战术背景和团队层面的动态进行建模。

许可

本数据集仅发布用于教育和研究目的。

搜集汇总

数据集介绍

构建方式

在足球数据分析领域，构建高质量数据集需兼顾真实性与可控性。本数据集采用混合生成方法，数值特征基于足球领域知识定义角色特定的统计分布，并施加硬性约束以确保逻辑合理性，例如守门员进球数趋近于零、前锋射门频率较高。市场价值动态模拟了职业生涯生命周期，引入年龄相关折旧机制。文本特征则借助大型语言模型生成，严格约束输出为简短、结构化的球探描述标签与摘要，并通过后处理验证确保内容完整性与专业性，从而在规模化的同时有效规避了完全由模型生成数据可能引发的幻觉问题。

特点

该数据集囊括欧洲五大联赛的一万名合成球员档案，其核心特点在于多维度的结构化表征。除涵盖年龄、出场时间、市场价值等基础属性外，重点纳入了以每九十分钟为单位的标准化技术指标，如进球、助攻、抢断与拦截次数，这为跨球员的公平比较奠定了基础。数据集创新性地融合了自然语言文本字段，包括风格标签与两句话的球探摘要，从而将量化指标与定性描述相结合，能够支撑更细腻的球员画像构建。数值分布呈现出符合现实足球经济学的长尾特征与角色间差异，为分析球员市场价值动态与发掘性价比机会提供了丰富素材。

使用方法

本数据集适用于足球分析及数据科学教育等多个场景。用户可直接加载JSON Lines、CSV或Parquet格式文件进行探索。对于球员相似性搜索与推荐系统开发，可结合数值特征与文本嵌入技术，构建能够兼顾技术表现与预算约束的模型。随附的探索性数据分析笔记本展示了市场价值分布、年龄-价值关系等关键洞察，为后续分析提供参考起点。通过交互式演示空间，用户能直观体验基于该数据的推荐应用。需注意，数据为合成性质，适用于算法原型验证与分析方法研究，而非真实球员评估。

背景与挑战

背景概述

在体育数据分析领域，足球运动员的量化评估已成为现代球探体系与转会市场决策的核心工具。Big5-football-scouting数据集于近年由数据科学项目团队创建，旨在模拟欧洲五大联赛（英超、西甲、意甲、德甲、法甲）的职业球员特征，涵盖年龄、场上位置、市场价值及多项表现指标。该数据集通过合成数据生成技术，结合统计建模与语言模型，构建了包含一万名虚拟球员的结构化档案，为球员相似性搜索、预算感知推荐系统及体育分析教育提供了高质量基准。其设计反映了足球领域对数据驱动决策日益增长的需求，推动了人工智能在体育管理中的应用探索。

当前挑战

该数据集致力于解决足球球探与转会市场中球员评估与推荐的复杂问题，其核心挑战在于如何准确量化球员的多维表现并映射至市场价值，同时处理非线性的价值-表现关系与职业生涯周期波动。在构建过程中，挑战主要集中于合成数据的真实性保障：需定义位置特定的统计分布以模拟真实比赛数据，并约束语言模型生成简洁、专业的文本描述，避免信息失真。此外，平衡数据规模与领域知识嵌入，确保市场价值分布符合实际转会市场的长尾特征，亦是关键难点。

常用场景

经典使用场景

在足球数据分析领域，该数据集为球员相似性搜索与推荐系统提供了理想的实验平台。通过整合球员的多维性能指标、市场估值及文本描述，研究者能够构建基于嵌入向量的相似性模型，精准识别具有相近技术风格或性价比的球员。这种应用不仅模拟了职业球探的日常工作流程，还为自动化人才发现机制奠定了数据基础，尤其适用于预算受限的俱乐部进行高效球员筛选。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于嵌入的球员相似性算法、预算约束下的推荐系统以及多模态数据融合分析。例如，研究者利用其数值与文本特征开发了联合嵌入模型，以捕捉球员风格的细微差异；另有工作专注于价值发现，通过异常检测识别被低估的潜力球员。这些成果为体育分析开源工具生态的发展提供了重要参考。

数据集最近研究