Murple/mmcrsc

Name: Murple/mmcrsc
Creator: Murple
Published: 2022-11-14 02:37:54
License: 暂无描述

Hugging Face2022-11-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Murple/mmcrsc

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - expert-generated language: - zh language_creators: - crowdsourced license: - cc-by-nc-nd-4.0 multilinguality: - monolingual pretty_name: MAGICDATA_Mandarin_Chinese_Read_Speech_Corpus size_categories: - 10K<n<100K source_datasets: - original tags: [] task_categories: - automatic-speech-recognition task_ids: [] --- # Dataset Card for MMCRSC ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** [MAGICDATA Mandarin Chinese Read Speech Corpus](https://openslr.org/68/) - **Repository:** - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary MAGICDATA Mandarin Chinese Read Speech Corpus was developed by MAGIC DATA Technology Co., Ltd. and freely published for non-commercial use. The contents and the corresponding descriptions of the corpus include: The corpus contains 755 hours of speech data, which is mostly mobile recorded data. 1080 speakers from different accent areas in China are invited to participate in the recording. The sentence transcription accuracy is higher than 98%. Recordings are conducted in a quiet indoor environment. The database is divided into training set, validation set, and testing set in a ratio of 51: 1: 2. Detail information such as speech data coding and speaker information is preserved in the metadata file. The domain of recording texts is diversified, including interactive Q&A, music search, SNS messages, home command and control, etc. Segmented transcripts are also provided. The corpus aims to support researchers in speech recognition, machine translation, speaker recognition, and other speech-related fields. Therefore, the corpus is totally free for academic use. The corpus is a subset of a much bigger data ( 10566.9 hours Chinese Mandarin Speech Corpus ) set which was recorded in the same environment. Please feel free to contact us via business@magicdatatech.com for more details. ### Supported Tasks and Leaderboards [More Information Needed] ### Languages zh-CN ## Dataset Structure ### Data Instances ```json { 'file': '14_3466_20170826171404.wav', 'audio': { 'path': '14_3466_20170826171404.wav', 'array': array([0., 0., 0., ..., 0., 0., 0.]), 'sampling_rate': 16000 }, 'text': '请搜索我附近的超市', 'speaker_id': 143466, 'id': '14_3466_20170826171404.wav' } ``` ### Data Fields - file: A path to the downloaded audio file in .wav format. - audio: A dictionary containing the path to the downloaded audio file, the decoded audio array, and the sampling rate. Note that when accessing the audio column: `dataset[0]["audio"]` the audio file is automatically decoded and resampled to `dataset.features["audio"].sampling_rate`. Decoding and resampling of a large number of audio files might take a significant amount of time. Thus it is important to first query the sample index before the `"audio"` column, *i.e.* `dataset[0]["audio"]` should **always** be preferred over `dataset["audio"][0]`. - text: the transcription of the audio file. - id: unique id of the data sample. - speaker_id: unique id of the speaker. The same speaker id can be found for multiple data samples. ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information Please cite the corpus as "Magic Data Technology Co., Ltd., "http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101", 05/2019".

annotations_creators: - 专家生成 language: - 中文（zh） language_creators: - 众包 license: - CC BY-NC-ND 4.0 multilinguality: - 单语言 pretty_name: MAGICDATA普通话朗读语音语料库（MAGICDATA_Mandarin_Chinese_Read_Speech_Corpus） size_categories: - 10千 < 样本数 < 100千 source_datasets: - 原始数据集 tags: [] task_categories: - 自动语音识别（automatic-speech-recognition） task_ids: [] --- # MMCRSC数据集卡片 ## 目录 - [目录](#table-of-contents) - [数据集描述](#dataset-description) - [数据集概览](#dataset-summary) - [支持任务与基准测试榜](#supported-tasks-and-leaderboards) - [语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集创建](#dataset-creation) - [数据集遴选依据](#curation-rationale) - [源数据](#source-data) - [标注](#annotations) - [个人与敏感信息](#personal-and-sensitive-information) - [数据使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差讨论](#discussion-of-biases) - [其他已知局限性](#other-known-limitations) - [附加信息](#additional-information) - [数据集策展人](#dataset-curators) - [许可证信息](#licensing-information) - [引用信息](#citation-information) - [贡献](#contributions) ## 数据集描述 - **主页：** [MAGICDATA普通话朗读语音语料库](https://openslr.org/68/) - **代码仓库：** - **论文：** - **基准测试榜：** - **联络人：** ### 数据集概览 MAGICDATA普通话朗读语音语料库由MAGIC DATA科技有限公司开发，免费面向非商业用途发布。该语料库的内容及对应说明如下：本语料库包含755小时语音数据，其中绝大多数为移动端录制数据。邀请了来自中国不同方言口音区域的1080名发音人参与录制。句子转录准确率高于98%。录制均在安静的室内环境中完成。该数据集按照51:1:2的比例划分为训练集、验证集与测试集。语音数据编码、发音人信息等详细信息均存储于元数据文件中。录制文本的覆盖领域多样，涵盖交互式问答、音乐搜索、社交网络消息、家庭指令控制等场景。同时提供分段转录文本。本语料库旨在为语音识别、机器翻译、说话人识别及其他语音相关领域的研究人员提供支持，因此面向学术研究完全免费。本语料库是在相同录制环境下采集的更大规模数据集（10566.9小时普通话语音语料库）的子集。如需了解更多详情，可通过business@magicdatatech.com与我们联系。 ### 支持任务与基准测试榜 [需要更多信息] ### 语言简体中文（zh-CN） ## 数据集结构 ### 数据实例 json { 'file': '14_3466_20170826171404.wav', 'audio': { 'path': '14_3466_20170826171404.wav', 'array': array([0., 0., 0., ..., 0., 0., 0.]), 'sampling_rate': 16000 }, 'text': '请搜索我附近的超市', 'speaker_id': 143466, 'id': '14_3466_20170826171404.wav' } ### 数据字段 - file：指向下载的.wav格式音频文件的路径。 - audio：包含音频文件路径、解码后的音频数组以及采样率的字典。注意：访问音频列时，`dataset[0]["audio"]`会自动对音频文件进行解码，并将其重采样至`dataset.features["audio"].sampling_rate`指定的采样率。批量解码和重采样大量音频文件可能会耗费较多时间，因此建议优先通过样本索引访问音频列，即始终优先使用`dataset[0]["audio"]`而非`dataset["audio"][0]`。 - text：音频文件的转录文本。 - id：数据样本的唯一标识符。 - speaker_id：发音人的唯一标识符，同一发音人ID可对应多个数据样本。 ### 数据划分 [需要更多信息] ## 数据集创建 ### 数据集遴选依据 [需要更多信息] ### 源数据 #### 初始数据采集与标准化 [需要更多信息] #### 源语言发声者是谁？ [需要更多信息] ### 标注 #### 标注流程 [需要更多信息] #### 标注人员是谁？ [需要更多信息] ### 个人与敏感信息 [需要更多信息] ## 数据使用注意事项 ### 数据集的社会影响 [需要更多信息] ### 偏差讨论 [需要更多信息] ### 其他已知局限性 [需要更多信息] ## 附加信息 ### 数据集策展人 [需要更多信息] ### 许可证信息 [需要更多信息] ### 引用信息请按照以下格式引用该语料库："Magic Data Technology Co., Ltd., "http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101", 05/2019"。 ### 贡献 [需要更多信息]

提供机构：

Murple

原始信息汇总

数据集卡片 for MMCRSC

数据集描述

数据集概述

MAGICDATA 普通话中文阅读语音语料库由 MAGIC DATA 科技有限公司开发并免费发布，仅供非商业用途使用。语料库包含 755 小时的语音数据，主要是移动录音数据。邀请了来自中国不同口音地区的 1080 名说话人参与录音。句子转录准确率高于 98%。录音在安静的室内环境中进行。数据库分为训练集、验证集和测试集，比例为 51:1:2。语音数据编码和说话人信息等详细信息保存在元数据文件中。录音文本的领域多样化，包括互动问答、音乐搜索、社交网络消息、家庭命令和控制等。还提供了分段转录。该语料库旨在支持语音识别、机器翻译、说话人识别等语音相关领域的研究。因此，该语料库完全免费供学术使用。该语料库是一个更大的数据集（10566.9 小时普通话中文语音语料库）的子集，该数据集在相同环境中录制。如需更多详情，请通过 business@magicdatatech.com 与我们联系。

支持的任务和排行榜

[更多信息需补充]

语言

zh-CN

数据集结构

数据实例

json { file: 14_3466_20170826171404.wav, audio: { path: 14_3466_20170826171404.wav, array: array([0., 0., 0., ..., 0., 0., 0.]), sampling_rate: 16000 }, text: 请搜索我附近的超市, speaker_id: 143466, id: 14_3466_20170826171404.wav }

数据字段

file: 下载的音频文件的路径，格式为 .wav。
audio: 包含下载的音频文件路径、解码的音频数组和采样率的字典。注意，访问音频列时：dataset[0]["audio"]，音频文件会自动解码并重采样到 dataset.features["audio"].sampling_rate。解码和重采样大量音频文件可能需要大量时间。因此，在访问 "audio" 列之前，应首先查询样本索引，即 dataset[0]["audio"] 应始终优先于 dataset["audio"][0]。
text: 音频文件的转录文本。
id: 数据样本的唯一标识符。
speaker_id: 说话人的唯一标识符。同一说话人的标识符可以在多个数据样本中找到。

数据分割

[更多信息需补充]

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者是谁？

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者是谁？

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据时的考虑

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

[更多信息需补充]

引用信息

请引用该语料库为 "Magic Data Technology Co., Ltd., "http://www.imagicdatatech.com/index.php/home/dataopensource/data_info/id/101", 05/2019"。

搜集汇总

数据集介绍

构建方式

在语音识别研究领域，高质量语音数据集的构建对于模型性能的提升至关重要。MAGICDATA普通话朗读语音语料库（MMCRSC）的构建过程体现了严谨的学术规范，其数据来源于1080名来自中国不同口音区域的发音人，在安静的室内环境中通过移动设备录制而成。整个语料库包含755小时的语音数据，录音文本领域高度多样化，涵盖了交互式问答、音乐搜索、社交网络消息及家庭命令与控制等多个场景。为确保转录文本的准确性，专家团队对句子转录进行了严格校对，准确率高于98%。数据最终按照51:1:2的比例划分为训练集、验证集和测试集，为模型训练与评估提供了科学的结构支撑。

特点

该数据集在语音资源中展现出鲜明的技术特征，其核心价值在于大规模、高精度与多样性。语料库总时长达到755小时，属于中等规模数据集，为深度学习模型提供了充足的训练样本。所有语音数据均附带经过人工精校的文本转录，保证了语音与文本对齐的可靠性。发音人覆盖广泛的口音区域，有助于增强模型对不同普通话变体的鲁棒性。录音文本内容跨越多个实用领域，有效模拟了真实世界的人机交互场景，提升了数据集的实用价值与泛化能力。此外，数据集完整保留了语音编码格式、采样率及说话人ID等元数据，为多任务学习如说话人识别提供了便利。

使用方法

对于致力于语音技术研究的学者而言，该数据集为自动语音识别等任务提供了直接可用的资源。用户可通过Hugging Face平台加载数据集，每个数据实例包含音频文件路径、解码后的音频数组、采样率、对应文本转录、说话人ID及唯一样本ID。在具体应用中，建议优先通过索引访问音频列以利用自动解码与重采样功能，从而提升处理效率。数据集已预设分割，研究者可直接将其用于模型训练、验证与测试流程。鉴于其非商业许可（CC-BY-NC-ND 4.0），该语料库特别适合学术机构开展语音识别、机器翻译及说话人识别等相关领域的探索性研究。

背景与挑战

背景概述

在语音技术迅猛发展的时代背景下，高质量、大规模的中文语音数据集对于推动自动语音识别、机器翻译及说话人识别等领域的进步至关重要。MAGICDATA普通话朗读语音语料库（MMCRSC）由魔量数据技术有限公司于2019年创建并公开发布，旨在为非商业用途的学术研究提供支持。该数据集收录了755小时的移动设备录制语音，覆盖来自中国不同口音区域的1080名说话者，文本内容涵盖交互问答、音乐搜索、社交消息及家庭控制等多个领域，转录准确率超过98%。其精心设计的训练、验证与测试集划分，以及丰富的元数据信息，显著提升了中文语音处理模型的鲁棒性与泛化能力，对相关学术研究产生了深远影响。

当前挑战

该数据集致力于解决中文自动语音识别任务中的核心挑战，包括应对多样化的口音变体、复杂的环境噪声干扰以及口语化表达与书面文本之间的差异。在构建过程中，面临诸多实际困难：需在安静的室内环境中协调千余名说话者进行大规模录音，确保语音质量的一致性；同时，对海量语音数据进行精准转录与校对，维持高达98%以上的准确率，是一项极其耗时且需要专家参与的工作；此外，数据集的领域多样性要求文本内容涵盖多个生活场景，这增加了数据采集与标注的复杂性。这些挑战共同塑造了数据集的最终形态，也为后续研究提供了宝贵的参考。

常用场景

经典使用场景

在语音技术研究领域，MAGICDATA普通话朗读语音语料库（MMCRSC）作为一项高质量的中文语音资源，其经典应用场景集中于自动语音识别（ASR）系统的训练与评估。该数据集收录了来自1080位不同口音区域说话者的755小时室内安静环境下的朗读语音，并覆盖了问答、音乐搜索、社交消息及家居控制等多样的文本领域。研究者可借助其精细的语音标注与高准确率的转写文本，构建和优化端到端的语音识别模型，特别是在处理中文普通话的声学建模与语言模型适配方面，该数据集提供了丰富的声学变异性和语境多样性，成为推动语音识别技术前沿进展的关键基准。

衍生相关工作

围绕MMCRSC语料库，学术界衍生了一系列经典的语音处理研究工作。这些工作主要集中在端到端语音识别架构的优化、多口音自适应模型的构建以及低资源语音识别技术的探索。例如，研究者利用该数据集的大规模多说话者语音，开发了基于深度神经网络（如Conformer、Transformer）的声学模型，显著提升了中文普通话的识别性能。同时，结合该数据集提供的说话者身份信息，相关研究也在说话人验证与语音合成领域取得了进展，进一步拓展了语音技术在身份识别与个性化交互中的应用边界。

数据集最近研究