five

illuin/common_voice_11_0_processed

收藏
Hugging Face2023-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/illuin/common_voice_11_0_processed
下载链接
链接失效反馈
官方服务:
资源简介:
# common_voice_11_0_processed ## Dataset Description ### Dataset Summary The data files can be found on the illuin gcloud instance at this adress: unknown_url This dataset has been processed from Huggingface Hub dataset ``mozilla-foundation/common_voice_11_0`` and the config ``fr`` ### Supported Tasks and Leaderboards [More Information Needed] ### Languages [More Information Needed] ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields [More Information Needed] #### Columns ``path`` ``audio`` ``sentence`` ``taxonomy`` ``taxonomy_large`` ``sentence_processed`` #### Sample ``` { 'audio': { 'array': array([ 0.00000000e+00, 0.00000000e+00, 0.00000000e+00, ..., -6.10351562e-05, -6.10351562e-05, 0.00000000e+00]), 'path': None, 'sampling_rate': 16000}, 'path': '/home/brunohays/.cache/huggingface/datasets/downloads/extracted/e95cbf12249133734218c89e4b09426a7807adcae4a709e56bc54e89ec65bc58/common_voice_fr_27787676.mp3', 'sentence': 'Il collaborera aussi avec Alan Bennett sur différentes comédies et téléfilm dramatiques.', 'sentence_processed': 'il collaborera aussi avec alan bennett sur différentes comédies et téléfilm dramatiques', 'taxonomy': 'common_voice', 'taxonomy_large': 'common_voice'} ``` ### Data Splits |split|number_of_rows| |:---:|:---: |train|487011| |test|15611| ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data [More Information Needed] ### Annotations [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the dataset ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information Property of Illuin Technology ### Contributions This dataset has been pushed using the repo [illuin-hf-dataset-pusher](https://gitlab.illuin.tech/data-science/ml/libraries/illuin-hf-dataset-pusher)
提供机构:
illuin
原始信息汇总

common_voice_11_0_processed

数据集描述

数据集概述

该数据集是从Huggingface Hub的mozilla-foundation/common_voice_11_0数据集处理得到的,配置为法语(fr)。

支持的任务和排行榜

[更多信息待补充]

语言

[更多信息待补充]

数据集结构

数据实例

[更多信息待补充]

数据字段

  • path
  • audio
  • sentence
  • taxonomy
  • taxonomy_large
  • sentence_processed

示例

json { "audio": { "array": [0.0, 0.0, 0.0, ..., -6.10351562e-05, -6.10351562e-05, 0.0], "path": None, "sampling_rate": 16000 }, "path": "/home/brunohays/.cache/huggingface/datasets/downloads/extracted/e95cbf12249133734218c89e4b09426a7807adcae4a709e56bc54e89ec65bc58/common_voice_fr_27787676.mp3", "sentence": "Il collaborera aussi avec Alan Bennett sur différentes comédies et téléfilm dramatiques.", "sentence_processed": "il collaborera aussi avec alan bennett sur différentes comédies et téléfilm dramatiques", "taxonomy": "common_voice", "taxonomy_large": "common_voice" }

数据分割

分割 行数
train 487011
test 15611

数据集创建

策划理由

[更多信息待补充]

源数据

[更多信息待补充]

注释

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据集的考虑因素

偏见讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

属于Illuin Technology

贡献

该数据集是通过illuin-hf-dataset-pusher仓库推送的。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作