cahya/fleurs|机器翻译数据集|语音识别数据集
收藏FLEURS 数据集概述
数据集描述
- 数据集名称: FLEURS
- 数据集类型: 语音数据集
- 数据集用途: 用于语音识别、语言识别和检索任务
- 数据集版本: 最新版本
- 数据集大小: 约 350 GB
数据集创建者
- 标注创建者: 专家生成、众包、机器生成
- 语言创建者: 众包、专家生成
支持的语言
数据集涵盖 102 种语言,包括但不限于:
- 非洲语言:阿非利卡语、阿姆哈拉语、富拉语等
- 欧洲语言:英语、法语、德语、西班牙语等
- 亚洲语言:汉语、日语、韩语、印地语等
- 其他地区语言:阿拉伯语、希伯来语、土耳其语等
数据集许可
- 许可类型: CC-BY-4.0
数据集结构
数据实例
以 af_za
配置为例:
- 下载数据集文件大小: 1.47 GB
- 生成数据集大小: 1 MB
- 总磁盘使用量: 1.47 GB
数据字段
- id: 音频样本的 ID
- num_samples: 浮点值的数量
- path: 音频文件的路径
- audio: 包含音频数组、采样率和音频路径的音频对象
- raw_transcription: 非规范化的音频文件转录
- transcription: 音频文件的转录
- gender: 性别类 ID
- lang_id: 语言类 ID
- lang_group_id: 语言组类 ID
数据分割
每个配置包含:
- 训练集: 约 1000 个样本
- 验证集: 约 400 个样本
- 测试集: 约 400 个样本
数据集创建
每个句子收集 1 到 3 个录音(平均 2.3 个),构建新的训练-开发-测试分割,分别包含 1509、150 和 350 个句子。
使用数据集的注意事项
社会影响
该数据集旨在鼓励全球更多语言的语音技术发展,提供平等的技术访问机会,如语音识别或语音翻译。
偏见讨论
尽管数据集涵盖了许多语言,但仍有许多同样重要的语言未被包含。我们相信通过 FLEURS 构建的技术应能泛化到所有语言。
其他已知限制
数据集主要关注朗读语音,因为常见的评估基准如 CoVoST-2 或 LibriSpeech 也评估这种类型的语音。在更嘈杂的环境中,性能可能会有所不同。
附加信息
引用信息
访问 FLEURS 论文:https://arxiv.org/abs/2205.12446 引用格式:
@article{fleurs2022arxiv, title = {FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech}, author = {Conneau, Alexis and Ma, Min and Khanuja, Simran and Zhang, Yu and Axelrod, Vera and Dalmia, Siddharth and Riesa, Jason and Rivera, Clara and Bapna, Ankur}, journal={arXiv preprint arXiv:2205.12446}, url = {https://arxiv.org/abs/2205.12446}, year = {2022}, }
贡献者
感谢 @patrickvonplaten 和 @aconneau 添加此数据集。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录