ggfox00000/stt-cefc-fr-test
收藏Hugging Face2026-04-28 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ggfox00000/stt-cefc-fr-test
下载链接
链接失效反馈官方服务:
资源简介:
CEFC-Orfeo法语长形式口语测试镜像数据集是一个非官方的法语当代研究语料库(CEFC)的镜像,由Orfeo项目(ANR)聚合,通过projet-orfeo.fr门户发布(第13版)。该数据集专注于长形式、对话和多说话者的法语音频,包含12个子语料库,总计303小时的音频,901个文件。每个文件代表一个完整的音频文件(平均30-60分钟),适合用于Whisper/Canary等ASR模型的基准测试。数据集包含音频ID、子语料库类型、音频文件、持续时间、转录文本、分段数量、说话者数量以及分段详细信息(开始时间、结束时间、文本、说话者ID)等字段。音频经过从22050Hz到16000Hz的重采样和FLAC编码处理,保留了原始转录内容。数据集适用于非商业用途,主要用于学术研究。
---
license: 其他
license_name: cefc-orfeo
license_link: https://www.projet-orfeo.fr
task_categories:
- 自动语音识别(Automatic Speech Recognition)
language:
- 法语(fr)
size_categories:
- 样本数少于1000(n<1K)
pretty_name: CEFC-Orfeo 法语 — 长口语测试镜像数据集
tags:
- cefc
- orfeo
- 法语
- ASR(Automatic Speech Recognition)
- 长格式
- 会话式
- 多说话人
annotations_creators:
- 专家生成
source_datasets:
- 扩展|cefc-orfeo
dataset_info:
features:
- name: audio_id
dtype: 字符串
- name: subcorpus
dtype: 字符串
- name: audio
dtype:
audio:
sampling_rate: 16000 Hz
- name: duration_sec
dtype: float64(64位浮点型)
- name: transcript
dtype: 字符串
- name: n_segments
dtype: int32(32位整型)
- name: n_speakers
dtype: int32(32位整型)
- name: segments
list:
- name: start
dtype: float64(64位浮点型)
- name: end
dtype: float64(64位浮点型)
- name: text
dtype: 字符串
- name: speaker_id
dtype: 字符串
splits:
- name: test(测试集)
num_examples: 901
configs:
- config_name: default(默认配置)
data_files:
- split: test
path: data/test-*.parquet
---
# CEFC-Orfeo 法语 — 长口语测试镜像数据集
本数据集为**当代法语研究语料库(Corpus d'Études du Français Contemporain,CEFC)**的非官方镜像,由法国国家科研署(ANR)资助的**Orfeo**项目整理,复刻自projet-orfeo.fr平台发布的13版数据集。
> **长格式设计**:单条数据对应一整条完整音频文件(平均时长30~60分钟)。本数据集包含12个当代法语口语子语料库,总时长达**303小时**,共901个音频文件,非常适合在**真实场景**下对Whisper/Canary模型进行基准测试(包括分块解码、时间偏移、多说话人等挑战场景)。
## 包含的子语料库(对应`subcorpus`字段)
| 子语料库标识 | 语料类型 | 来源 |
|---|---|---|
| `cfpb` | 布鲁塞尔议会发言 | CFPB |
| `cfpp` | 巴黎口语 | CFPP2000 |
| `clapi` | 里昂互动对话 | CLAPI |
| `coralrom` | 法语欧洲罗曼语对话 | C-ORAL-ROM |
| `crfp` | 标准法语口语 | CRFP |
| `fleuron` | 交换生口语 | FLEURON |
| `frenchoralnarrative` | 法语口头叙事 | FrenchOralNarrative |
| `ofrom` | 瑞士弗里堡法语口语 | OFROM |
| `reunions-de-travail` | 职场会议 | — |
| `tcof` | 家庭/儿童对话 | TCOF |
| `tufs` | 法语外语学习者口语 | TUFS |
| `valibel` | 比利时法语口语 | VALIBEL |
→ 本数据集支持**按语言变体的鲁棒性分析**(包括区域变体、母语者 vs 第二语言学习者、正式语体 vs 自发语体、双人对话 vs 多说话人对话等维度)。
## 数据字段规范
| 字段名 | 数据类型 | 字段说明 |
|---|---|---|
| `audio_id` | 字符串 | 格式为`<subcorpus>/<basename>`(示例:`cfpb/CFPB-1000-5`) |
| `subcorpus` | 字符串 | 上述12个子语料库标识之一 |
| `audio` | 音频 | FLAC格式16 kHz单声道PCM_16(从22050 Hz重采样得到) |
| `duration_sec` | float64(64位浮点型) | 音频时长,单位:秒 |
| `transcript` | 字符串 | 所有语句的拼接文本(采用Orfeo标注格式的`# text`,按时间顺序排列) |
| `n_segments` | int32(32位整型) | 语句片段总数(对应`# sent_id`标注) |
| `n_speakers` | int32(32位整型) | 不同说话人总数(取自.orfeo文件的第13列) |
| `segments` | 列表 | 按语句划分的片段列表,每个片段包含`start`(起始时间)、`end`(结束时间)、`text`(语句文本)、`speaker_id`(说话人ID) |
## 预处理流程
- **音频源文件**:单声道22050 Hz PCM_16格式的WAV文件(源自Orfeo项目上游数据集)。
- **重采样(22050 Hz → 16000 Hz)**:通过`soxr.resample(quality="HQ")`实现,采用专业级多相抗混叠滤波器。被滤除的8~11 kHz频段为人耳不可闻且不属于自动语音识别(ASR)的有效频段,而Whisper/wav2vec2模型本身原生支持16 kHz采样率,即便不做预处理也会在内部完成下采样。
- **编码**:通过`soundfile`库将音频编码为单声道PCM_16格式的FLAC文件。
- **无音频切割**:完整保留原始长音频文件,不进行分段。
- **标注解析**:从`.orfeo`文件中解析得到标注(采用Orfeo扩展CoNLL-U格式,详见projet-orfeo.fr平台的分割指南):
- 每条语句`# sent_id` + `# text`对应一个片段
- 片段起始时间`start`为该语句所有token的最小BTIMESTAMP值,结束时间`end`为最大ETIMESTAMP值
- `speaker_id`为该语句的多数派说话人(取自.orfeo文件的第13列)
## 加载示例
python
from datasets import load_dataset
# 加载测试集数据集
ds = load_dataset("ggfox00000/stt-cefc-fr-test", split="test")
print(len(ds), "个音频文件")
# 按子语料库筛选
cfpp = ds.filter(lambda r: r["subcorpus"] == "cfpp")
print(len(cfpp), "个CFPP(巴黎口语)语料库文件")
sample = ds[0]
print(sample["audio_id"], sample["subcorpus"], sample["duration_sec"]/60, "分钟,", sample["n_segments"], "个片段,", sample["n_speakers"], "位说话人")
print("第一个片段:", sample["segments"][0])
## 数据源
- 项目:[Orfeo](http://www.projet-orfeo.fr/)(ANR-12-CORP-0005)
- 发布版本:`cefc-orfeo` 13版
- 文档资料:`documentation/guide_segmentation_orfeo.pdf`、`guide_pos_orfeo.pdf`、`guide_dependance_orfeo.pdf`
- 源语料库列表:http://www.projet-orfeo.fr/corpus-source/
## 许可证
本数据集的**许可证继承自各源子语料库**(具体许可协议因子语料库而异,通常为学术非商用许可),详细信息请参阅Orfeo项目文档及各子语料库的许可条款。**推荐非商业用途**。允许进行技术重分发(仅包含22k→16k重采样与FLAC编码操作),且不得修改原始转录文本。
## 引用格式
bibtex
@misc{cefc-orfeo,
title = {Corpus d'\'Etudes du Fran\c{c}ais Contemporain},
author = {Projet Orfeo (ANR)},
url = {http://www.projet-orfeo.fr},
}
提供机构:
ggfox00000



