SushantGautam/SoccerNet-Echoes
收藏Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/SushantGautam/SoccerNet-Echoes
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
- de
license: apache-2.0
task_categories:
- text-classification
- summarization
dataset_info:
- config_name: whisper_v1
features:
- name: segment_index
dtype: string
- name: start_time
dtype: float32
- name: end_time
dtype: float32
- name: transcribed_text
dtype: string
- name: game
dtype: string
splits:
- name: train
num_bytes: 110289348
num_examples: 780160
download_size: 34176839
dataset_size: 110289348
- config_name: whisper_v1_en
features:
- name: segment_index
dtype: int32
- name: start_time
dtype: float32
- name: end_time
dtype: float32
- name: transcribed_text
dtype: string
splits:
- name: train
num_bytes: 31843296
num_examples: 563064
download_size: 96617459
dataset_size: 31843296
- config_name: whisper_v2
features:
- name: segment_index
dtype: int32
- name: start_time
dtype: float32
- name: end_time
dtype: float32
- name: transcribed_text
dtype: string
splits:
- name: train
num_bytes: 47409793
num_examples: 761240
download_size: 96617459
dataset_size: 47409793
- config_name: whisper_v2_en
features:
- name: segment_index
dtype: string
- name: start_time
dtype: float32
- name: end_time
dtype: float32
- name: transcribed_text
dtype: string
splits:
- name: train
num_bytes: 32198972
num_examples: 538990
download_size: 96617459
dataset_size: 32198972
- config_name: whisper_v3
features:
- name: segment_index
dtype: string
- name: start_time
dtype: float32
- name: end_time
dtype: float32
- name: transcribed_text
dtype: string
splits:
- name: train
num_bytes: 52528392
num_examples: 923221
download_size: 96617459
dataset_size: 52528392
configs:
- config_name: whisper_v1
data_files:
- split: train
path: whisper_v1/train-*
default: true
---
# SoccerNet-Echoes
Official repo for the paper: [SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset](https://arxiv.org/abs/2405.07354).
## Dataset
Each folder inside the **Dataset** directory is categorized by league, season, and game. Within these folders, JSON files contain the transcribed and translated game commentary.
```python
📂 Dataset
├── 📁 whisper_v1
│ ├── 🏆 england_epl
│ │ ├── 📅 2014-2015
│ │ │ └── ⚽ 2016-03-02 - 23-00 Liverpool 3 - 0 Manchester City
│ │ │ ├── ☁️ 1_asr.json
│ │ │ └── ☁️ 2_asr.json
│ │ ├── 📅 2015-2016
│ │ └── ...
│ ├── 🏆 europe_uefa-champions-league
│ └── ...
├── 📁 whisper_v1_en
│ └── ...
├── 📁 whisper_v2
│ └── ...
├── 📁 whisper_v2_en
│ └── ...
├── 📁 whisper_v3
│ └── ...
whisper_v1: Contains ASR from Whisper v1.
whisper_v1_en: English-translated datasets from Whisper v1.
whisper_v2: Contains ASR from Whisper v2.
whisper_v2_en: English-translated datasets from Whisper v2.
whisper_v3: Contains ASR from Whisper v3.
```
Each JSON file has the following format:
```python
{
"segments": {
segment index (int):[
start time in second (float),
end time in second (float),
transcribed text from ASR
]
....
}
}
```
The top-level object is named segments.
It contains an object where each key represents a unique segment index (e.g., "0", "1", "2", etc.).
Each segment index object has the following properties:
```python
start_time: A number representing the starting time of the segment in seconds.
end_time: A number representing the ending time of the segment in seconds.
text: A string containing the textual content of the commentary segment.
```
## Citation
Please cite our work if you use the SoccerNet-Echoes dataset:
<pre><code>
@misc{gautam2024soccernetechoes,
title={SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset},
author={Sushant Gautam and Mehdi Houshmand Sarkhoosh and Jan Held and Cise Midoglu and Anthony Cioppa and Silvio Giancola and Vajira Thambawita and Michael A. Riegler and Pål Halvorsen and Mubarak Shah},
year={2024},
eprint={2405.07354},
archivePrefix={arXiv},
primaryClass={cs.SD},
doi={10.48550/arXiv.2405.07354}
}
</code></pre>
语言:
- 英语
- 德语
许可证:Apache-2.0
任务类别:
- 文本分类
- 摘要生成
数据集信息:
- 配置名称:whisper_v1
特征:
- 字段名:segment_index,数据类型:string
- 字段名:start_time,数据类型:float32
- 字段名:end_time,数据类型:float32
- 字段名:transcribed_text,数据类型:string
- 字段名:game,数据类型:string
划分集:
- 名称:train,字节数:110289348,样本数:780160
下载大小:34176839,数据集总大小:110289348
- 配置名称:whisper_v1_en
特征:
- 字段名:segment_index,数据类型:int32
- 字段名:start_time,数据类型:float32
- 字段名:end_time,数据类型:float32
- 字段名:transcribed_text,数据类型:string
划分集:
- 名称:train,字节数:31843296,样本数:563064
下载大小:96617459,数据集总大小:31843296
- 配置名称:whisper_v2
特征:
- 字段名:segment_index,数据类型:int32
- 字段名:start_time,数据类型:float32
- 字段名:end_time,数据类型:float32
- 字段名:transcribed_text,数据类型:string
划分集:
- 名称:train,字节数:47409793,样本数:761240
下载大小:96617459,数据集总大小:47409793
- 配置名称:whisper_v2_en
特征:
- 字段名:segment_index,数据类型:string
- 字段名:start_time,数据类型:float32
- 字段名:end_time,数据类型:float32
- 字段名:transcribed_text,数据类型:string
划分集:
- 名称:train,字节数:32198972,样本数:538990
下载大小:96617459,数据集总大小:32198972
- 配置名称:whisper_v3
特征:
- 字段名:segment_index,数据类型:string
- 字段名:start_time,数据类型:float32
- 字段名:end_time,数据类型:float32
- 字段名:transcribed_text,数据类型:string
划分集:
- 名称:train,字节数:52528392,样本数:923221
下载大小:96617459,数据集总大小:52528392
配置列表:
- 配置名称:whisper_v1,数据文件:
- 划分集:train,路径:whisper_v1/train-*
默认启用:true
---
# SoccerNet-Echoes
本仓库为论文《SoccerNet-Echoes:足球赛事音频解说数据集》(SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset)的官方代码仓库,论文链接:https://arxiv.org/abs/2405.07354。
## 数据集
**数据集**目录内的每个文件夹均按联赛、赛季及赛事进行分类。这些文件夹内的JSON文件存储了经转录与翻译的赛事解说内容。
python
📂 数据集
├── 📁 whisper_v1
│ ├── 🏆 england_epl(英格兰足球超级联赛)
│ │ ├── 📅 2014-2015赛季
│ │ │ └── ⚽ 2016-03-02 - 23:00 利物浦3 - 0 曼彻斯特城
│ │ │ ├── ☁️ 1_asr.json
│ │ │ └── ☁️ 2_asr.json
│ │ ├── 📅 2015-2016赛季
│ │ └── ......
│ ├── 🏆 europe_uefa-champions-league(欧洲足球冠军联赛)
│ └── ......
├── 📁 whisper_v1_en
│ └── ......
├── 📁 whisper_v2
│ └── ......
├── 📁 whisper_v2_en
│ └── ......
├── 📁 whisper_v3
│ └── ......
whisper_v1:包含Whisper v1生成的自动语音识别(Automatic Speech Recognition, ASR)结果。
whisper_v1_en:基于Whisper v1生成的英语翻译数据集。
whisper_v2:包含Whisper v2生成的自动语音识别(Automatic Speech Recognition, ASR)结果。
whisper_v2_en:基于Whisper v2生成的英语翻译数据集。
whisper_v3:包含Whisper v3生成的自动语音识别(Automatic Speech Recognition, ASR)结果。
每个JSON文件采用如下格式:
python
{
"segments": {
片段索引(整数): [
片段起始时间(单位:秒,浮点数),
片段结束时间(单位:秒,浮点数),
自动语音识别转录的文本内容
]
......
}
}
顶层对象命名为`segments`。该对象包含一个子对象,其中每个键均为唯一的片段索引(例如"0"、"1"、"2"等)。每个片段索引对应的对象包含以下属性:
- `start_time`:表示片段起始时间的数值,单位为秒。
- `end_time`:表示片段结束时间的数值,单位为秒。
- `text`:包含解说片段文本内容的字符串。
## 引用
若您使用SoccerNet-Echoes数据集,请引用我们的研究成果:
bibtex
@misc{gautam2024soccernetechoes,
title={SoccerNet-Echoes: A Soccer Game Audio Commentary Dataset},
author={Sushant Gautam and Mehdi Houshmand Sarkhoosh and Jan Held and Cise Midoglu and Anthony Cioppa and Silvio Giancola and Vajira Thambawita and Michael A. Riegler and Pål Halvorsen and Mubarak Shah},
year={2024},
eprint={2405.07354},
archivePrefix={arXiv},
primaryClass={cs.SD},
doi={10.48550/arXiv.2405.07354}
}
提供机构:
SushantGautam
原始信息汇总
数据集概述
数据集信息
- 语言: 英语 (en), 德语 (de)
- 许可证: Apache 2.0
- 任务类别: 文本分类, 摘要生成
配置信息
whisper_v1
- 特征:
- segment_index: string
- start_time: float32
- end_time: float32
- transcribed_text: string
- game: string
- 分割:
- train:
- num_bytes: 110289348
- num_examples: 780160
- train:
- 下载大小: 34176839
- 数据集大小: 110289348
whisper_v1_en
- 特征:
- segment_index: int32
- start_time: float32
- end_time: float32
- transcribed_text: string
- 分割:
- train:
- num_bytes: 31843296
- num_examples: 563064
- train:
- 下载大小: 96617459
- 数据集大小: 31843296
whisper_v2
- 特征:
- segment_index: int32
- start_time: float32
- end_time: float32
- transcribed_text: string
- 分割:
- train:
- num_bytes: 47409793
- num_examples: 761240
- train:
- 下载大小: 96617459
- 数据集大小: 47409793
whisper_v2_en
- 特征:
- segment_index: string
- start_time: float32
- end_time: float32
- transcribed_text: string
- 分割:
- train:
- num_bytes: 32198972
- num_examples: 538990
- train:
- 下载大小: 96617459
- 数据集大小: 32198972
whisper_v3
- 特征:
- segment_index: string
- start_time: float32
- end_time: float32
- transcribed_text: string
- 分割:
- train:
- num_bytes: 52528392
- num_examples: 923221
- train:
- 下载大小: 96617459
- 数据集大小: 52528392
数据集结构
- 目录结构:
- Dataset
- whisper_v1
- england_epl
- 2014-2015
- 2016-03-02 - 23-00 Liverpool 3 - 0 Manchester City
- 1_asr.json
- 2_asr.json
- 2016-03-02 - 23-00 Liverpool 3 - 0 Manchester City
- 2014-2015
- england_epl
- whisper_v1_en
- whisper_v2
- whisper_v2_en
- whisper_v3
- whisper_v1
- Dataset
JSON文件格式
- segments:
- segment index (int):
- start_time: float
- end_time: float
- text: string
- segment index (int):
搜集汇总
数据集介绍

构建方式
在体育音频数据处理领域,SoccerNet-Echoes数据集的构建体现了系统化采集与智能处理的深度融合。该数据集源自多场足球比赛的实时解说音频,通过Whisper系列自动语音识别模型(包括v1、v2及v3版本)进行转录与翻译处理,生成结构化的文本注释。音频素材按联赛、赛季及具体比赛场次进行层级化组织,每场比赛的解说被分割为连续的时间片段,并记录起始时间、结束时间及对应转录文本,最终以JSON格式存储,确保了时间对齐与文本内容的精确对应。
使用方法
在自然语言处理与体育分析交叉研究中,SoccerNet-Echoes为文本分类、摘要生成等任务提供了高质量语料。使用者可通过HuggingFace平台加载指定配置(如whisper_v1_en),直接获取结构化数据。每个JSON文件中的片段索引、时间信息与文本内容可直接用于训练时序模型或进行解说内容的事件检测、情感分析等研究。数据集的层级目录结构便于按联赛、赛季或具体比赛进行选择性加载与分析。
背景与挑战
背景概述
在体育分析领域,足球比赛音频解说数据长期以来是连接视听内容与语义理解的关键桥梁。SoccerNet-Echoes数据集由Sushant Gautam等研究人员于2024年创建,依托SoccerNet研究框架,旨在系统化地整合多语言足球解说音频及其文本转录。该数据集的核心研究问题聚焦于如何利用自动语音识别技术,将足球比赛的实时解说转化为结构化文本,从而支持自然语言处理、多模态学习及体育事件分析等前沿任务。其影响力不仅体现在丰富了体育领域的语料资源,更推动了音频语义理解与视频内容分析的深度融合,为智能体育分析系统提供了坚实的数据基础。
当前挑战
该数据集致力于解决足球比赛音频解说自动转录与跨语言翻译的领域挑战,具体包括解说语速快、背景噪音干扰、专业术语识别以及多语言对齐等复杂问题。在构建过程中,研究人员面临诸多技术障碍,例如大规模音频数据的采集与清洗、不同版本Whisper模型转录结果的一致性校验,以及跨赛季、跨联赛数据的标准化整合。此外,确保时间戳与文本内容的精确同步,并维持多语言翻译的语义保真度,亦是数据集构建中的关键难点。这些挑战共同构成了数据集在推动体育音频分析研究中的核心瓶颈。
常用场景
经典使用场景
在体育分析领域,SoccerNet-Echoes数据集为足球比赛音频解说提供了结构化转录资源。该数据集通过Whisper模型生成多版本自动语音识别结果,覆盖多个赛季与联赛,其经典应用场景在于支持足球视频的语义理解与内容检索研究。研究者可依据时间戳对齐的文本片段,深入探索解说语言与比赛事件的关联,为构建智能体育分析系统奠定数据基础。
解决学术问题
该数据集有效应对了体育视频分析中音频语义解析的挑战,为多模态学习提供了关键语料。其解决了传统研究中足球解说数据稀缺且缺乏时序标注的问题,支持自动语音识别、机器翻译及跨模态对齐等学术方向。通过提供大规模、多语言的解说转录,该数据集推动了体育领域自然语言处理技术的进步,并为事件检测、情感分析等任务提供了可靠基准。
实际应用
在实际应用层面,SoccerNet-Echoes数据集能够赋能智能体育媒体平台,实现比赛精彩片段的自动生成与个性化推荐。广播机构可利用该数据集开发实时字幕系统,提升观赛体验的可访问性;教练与分析师则可借助解说文本挖掘战术信息,辅助比赛复盘。此外,该数据集还为教育娱乐领域的交互式应用提供了丰富的语言素材。
数据集最近研究
最新研究方向
在体育人工智能领域,SoccerNet-Echoes数据集以其丰富的足球比赛音频解说转录文本,为多模态体育分析开辟了新的研究路径。该数据集整合了Whisper系列自动语音识别模型的多版本输出,涵盖了英超、欧冠等顶级赛事的解说内容,时间跨度与文本细节兼备。当前前沿研究聚焦于利用该数据集进行跨语言体育事件检测与情感分析,通过解说文本与比赛视频的时序对齐,实现更精准的战术模式识别与精彩瞬间自动摘要。随着大型语言模型在体育领域的深入应用,该数据集亦成为训练体育专用自然语言处理模型的关键语料,推动实时解说生成、多语言体育知识问答等热点方向的发展,对提升观赛体验与教练辅助决策具有显著意义。
以上内容由遇见数据集搜集并总结生成



