google/fleurs|机器翻译数据集|多语言处理数据集
收藏数据集概述
数据集名称
- 名称: FLEURS
- 全称: The Cross-lingual TRansfer Evaluation of Multilingual Encoders for Speech (XTREME-S) benchmark
数据集描述
- 目的: 评估跨语言、任务、领域和数据体制的语音表示
- 覆盖范围: 102种语言,涵盖10+语言家族,3个不同领域和4个任务家族:语音识别、翻译、分类和检索
数据集特性
- 语言: 包括afr, amh, ara等102种语言
- 许可证: cc-by-4.0
- 多语言性: 多语言
- 大小: 10K<n<100K
- 任务类别: 自动语音识别
- 标签: 语音识别
数据集结构
- 数据实例: 每个配置包含约1000个训练样本,400个验证和测试样本
- 数据字段: id, num_samples, path, audio, raw_transcription, transcription, gender, lang_id, lang_group_id
数据集使用
- 加载方式: 使用
datasets
库的load_dataset
函数 - 示例代码: 提供Python代码示例,用于加载和处理数据集
数据集创建
- 录音数量: 每个句子1至3次录音(平均2.3次)
- 分割: 训练集1509句,开发集150句,测试集350句
数据集考虑
- 社会影响: 促进全球更多语言的语音技术发展
- 偏见讨论: 覆盖多种语言,但仍有遗漏
- 其他限制: 主要关注朗读语音,可能与实际生产环境中的噪音情况不符
附加信息
- 许可证: 所有数据集均遵循Creative Commons license (CC-BY)
- 引用信息: 引用时请参考FLEURS论文,arXiv:2205.12446

凯斯西储大学滚动轴承数据集(CWRU)
美国凯斯西储大学提供的滚动轴承数据集,包括了正常数据、轴承外圈故障数据、内圈故障数据、滚动体故障数据,可用于建立故障诊断分类任务
AI_Studio 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
CRACK500
For the details of the work, the readers are refer to the paper "Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection" (FPHB), T-ITS 2019. You can find the paper in https://www.researchgate.net/publication/330244656_Feature_Pyramid_and_Hierarchical_Boosting_Network_for_Pavement_Crack_Detection or https://arxiv.org/abs/1901.06340.
Papers with Code 收录
波士顿房价数据集
波士顿房价数据集是一个经典的机器学习数据集,通常用于回归任务,尤其是房价预测。下方文档中有所有字段顺序的描述。
阿里云天池 收录
K-Lane
K-Lane是世界上首个也是最大的公共城市道路和高速公路激光雷达车道数据集,包含超过1.5万个帧,涵盖了多达六个车道的标注,适应于多种道路和交通条件,如多级遮挡道路、白天和夜晚道路、合并(收敛和发散)以及弯曲车道。
arXiv 收录