five

Nicolas-BZRD/French_Transcribed_Podcast

收藏
Hugging Face2023-09-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Nicolas-BZRD/French_Transcribed_Podcast
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含280,000个法语播客的mp3链接,转录工作正在进行中,但由于播客数量庞大,无法全部转录,因此需要社区的帮助。播客的总时长估计约为2958天(4259523分钟),但这一数值仅供参考,因为部分链接可能已失效,且并非所有播客都有标注的时长。播客链接可在法国政府的data gouv网站上找到。
提供机构:
Nicolas-BZRD
原始信息汇总

法语转录播客数据集

数据集概述

该数据集包含约280,000个法语播客的MP3链接。目前正在进行使用whisper的转录工作,但由于播客数量庞大,无法转录所有内容。因此,我们依赖社区的帮助来完成这一庞大的任务。

播客的总时长估计约为2958天(4259523分钟),但这一数值仅供参考,因为某些链接可能已失效,且并非所有播客都具有标明的时长。

数据集信息

特征

  • programme_id: 字符串类型
  • programme_entry_date: 字符串类型
  • programme_rss_link: 字符串类型
  • podcast_title: 字符串类型
  • podcast_date: 字符串类型
  • podcast_duration: 字符串类型
  • audio_podcast_link: 字符串类型

分割

  • train: 包含281759个样本,总字节数为96627005

大小

  • 下载大小: 28777088字节
  • 数据集大小: 96627005字节

标签

  • Podcast
  • Audio
  • Transcribed

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*

语言

  • 法语

许可证

  • 未知

任务类别

  • 自动语音识别

美观名称

  • Transcribed French Podcast
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作