five

SoccerWiki

收藏
Hugging Face2025-09-08 更新2025-09-09 收录
下载链接:
https://huggingface.co/datasets/SJTU-AI4Sports/SoccerWiki
下载链接
链接失效反馈
官方服务:
资源简介:
SoccerWiki是一个大规模的多模态足球知识库,包含9471名足球运动员、266个足球队、202名裁判和235个足球场馆的信息。这些信息包括个人属性、职业生涯数据、球队统计数据、历史表现、场馆位置、容量等,并提供了相应的图片。该数据集旨在支持足球领域的知识驱动AI应用,包括我们提出的多智能体系统SoccerAgent,以及数据驱动研究、多模态分析等。
创建时间:
2025-09-01
原始信息汇总

SoccerWiki 数据集概述

数据集基本信息

  • 名称:SoccerWiki
  • 许可证:CC BY-SA 4.0
  • 来源:Wikipedia 和 Flashscore
  • 相关论文:Multi-Agent System for Comprehensive Soccer Understanding(ACM Multimedia 2025)
  • 论文链接:https://arxiv.org/abs/2505.03735
  • 项目页面:https://jyrao.github.io/SoccerAgent
  • GitHub 仓库:https://github.com/jyrao/SoccerAgent
  • 基准测试:https://huggingface.co/datasets/Homie0609/SoccerBench

数据集规模

  • 球员:9,471 名
  • 球队:266 支
  • 裁判:202 名
  • 场馆:235 个

关键特性

  • 球员信息:包括个人属性、职业生涯数据和球员图像
  • 球队数据:包含球队统计数据、历史表现和队徽
  • 裁判资料:包含详细档案和执法历史
  • 场馆信息:包含位置、容量和图像

数据集结构

SoccerWiki ├─ data │ ├─ player │ ├─ referee │ ├─ team │ └─ venue └─ pic ├─ player ├─ referee ├─ team └─ venue

数据格式示例

球员数据采用 JSON 格式,包含以下字段:

  • FULL_NAME:全名
  • UNICODE:唯一编码
  • PLAYER_URL:维基百科链接
  • PLAYER_IMAGE_URL:球员图像链接
  • INFOBOX:信息框数据
  • CONTENT:详细内容
  • IMAGES:相关图像链接
  • SUMMARY:摘要信息

主要用途

  • 支持知识驱动的足球 AI 应用
  • 足球代理系统开发
  • 数据驱动研究
  • 多模态分析任务

许可信息

  • Wikipedia 内容使用 CC BY-SA 4.0 许可证
  • Flashscore 数据遵循其服务条款

引用信息

bibtex @inproceedings{rao2025soccceragent, title = {Multi-Agent System for Comprehensive Soccer Understanding}, author = {Rao, Jiayuan and Li, Zifeng and Wu, Haoning and Zhang, Ya and Wang, Yanfeng and Xie, Weidi}, booktitle = {ACM Multimedia 2025}, year = {2025} }

联系方式

  • jy_rao@sjtu.edu.cn
  • zifengli@sjtu.edu.cn
搜集汇总
数据集介绍
main_image_url
构建方式
SoccerWiki数据集通过整合维基百科和Flashscore两大权威平台的多模态信息构建而成,采用结构化提取与语义解析技术,系统性地采集了球员、球队、裁判及场馆四类实体的文本与图像数据。构建过程中严格遵循知识图谱构建标准,对原始数据进行清洗、去重与关联,确保实体属性的完整性与一致性,最终形成包含9471名球员、266支球队、202名裁判及235个场馆的高质量知识库。
特点
该数据集以多模态知识融合为核心特色,涵盖球员生涯轨迹、球队历史战绩、裁判执法记录及场馆空间属性等维度,兼具文本结构化描述与视觉图像数据。实体间通过语义关系构成网络化知识体系,支持跨模态检索与深度推理,其规模与精细度在足球领域知识库中具有显著优势,为人工智能模型提供兼具广度与深度的领域知识支撑。
使用方法
研究者可通过标准化数据接口调用实体信息,支持以知识驱动方式赋能足球分析任务,如构建多智能体决策系统、开展跨模态检索实验或训练领域大语言模型。数据集提供JSON格式的结构化元数据与图像资源,用户可依据实体类型分层访问,结合论文提供的基准任务SoccerBench实现模型性能验证,需注意遵守CC BY-SA 4.0与Flashscore服务条款的许可要求。
背景与挑战
背景概述
SoccerWiki作为一项大规模多模态足球知识库,由上海交通大学研究团队于2025年构建,旨在支撑《ACM Multimedia》会议发表的足球多智能体系统研究。该数据集整合了维基百科和Flashscore平台的权威数据,涵盖9471名球员、266支球队、202名裁判及235个场馆的多模态信息,为足球知识推理与智能决策提供了结构化数据基础,显著推动了体育人工智能与多模态学习领域的交叉研究进展。
当前挑战
该数据集致力于解决足球领域多模态知识融合与复杂推理的核心难题,包括跨模态实体对齐、动态知识更新与多源异构数据标准化等挑战。构建过程中需克服维基百科非结构化文本的语义解析困难、Flashscore实时数据的抓取稳定性问题,以及数万张图片与文本数据的精确关联等技术壁垒,同时需严格遵守CC BY-SA 4.0协议与第三方平台数据使用条款的合规性约束。
常用场景
经典使用场景
在足球智能分析领域,SoccerWiki数据集作为多模态知识库,为构建专业级足球理解系统提供核心支持。其经典应用场景体现在驱动多智能体系统进行复杂决策推理,例如通过整合球员职业生涯数据、球队历史表现与场地信息,模拟专业教练的战术部署过程。该系统能够基于结构化知识实现动态比赛策略生成,为足球战术分析树立了新的技术标杆。
实际应用
在实际应用层面,SoccerWiki支撑着智能体育解说系统、虚拟教练助手等创新产品的开发。职业俱乐部可利用其整合的球员能力模型进行转会市场分析,媒体机构则依托多模态数据生成动态比赛报道。这些应用不仅提升了足球产业的数字化水平,更为球迷提供了深度互动的观赛体验, demonstrating 知识驱动型AI在体育垂直领域的落地价值。
衍生相关工作
基于该数据集衍生的经典工作包括SoccerAgent多智能体系统框架,其通过协同推理机制实现比赛态势理解。后续研究进一步扩展了跨语言球员检索、视觉-文本联合嵌入模型等方向。这些工作共同构建了足球知识计算的技术体系,推动了ACM Multimedia等顶级会议在体育人工智能领域的研究进展,形成了一系列具有影响力的学术成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作