Nicolas-BZRD/French_Transcribed_Podcast
收藏Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nicolas-BZRD/French_Transcribed_Podcast
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含280,000个法语播客的mp3链接,转录工作正在进行中,但由于播客数量庞大,无法全部转录,因此需要社区的帮助。播客的总时长估计约为2958天(4259523分钟),但这一数值仅供参考,因为部分链接可能已失效,且并非所有播客都有标注的时长。播客链接可在法国政府的data gouv网站上找到。
提供机构:
Nicolas-BZRD
原始信息汇总
法语转录播客数据集
数据集概述
该数据集包含约280,000个法语播客的MP3链接。目前正在进行使用whisper的转录工作,但由于播客数量庞大,无法转录所有内容。因此,我们依赖社区的帮助来完成这一庞大的任务。
播客的总时长估计约为2958天(4259523分钟),但这一数值仅供参考,因为某些链接可能已失效,且并非所有播客都具有标明的时长。
数据集信息
特征
- programme_id: 字符串类型
- programme_entry_date: 字符串类型
- programme_rss_link: 字符串类型
- podcast_title: 字符串类型
- podcast_date: 字符串类型
- podcast_duration: 字符串类型
- audio_podcast_link: 字符串类型
分割
- train: 包含281759个样本,总字节数为96627005
大小
- 下载大小: 28777088字节
- 数据集大小: 96627005字节
标签
- Podcast
- Audio
- Transcribed
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:
语言
- 法语
许可证
- 未知
任务类别
- 自动语音识别
美观名称
- Transcribed French Podcast



