CHiME3

Name: CHiME3
Creator: Linguistic Data Consortium
Published: 2021-07-01 16:30:17
License: 暂无描述

DataCite Commons2021-07-01 更新2025-04-16 收录

下载链接：

https://catalog.ldc.upenn.edu/LDC2017S24

下载链接

链接失效反馈

官方服务：

资源简介：

<h3>Introduction</h3><br> <p>CHiME3 was developed as part of <a href="http://spandh.dcs.shef.ac.uk/chime_challenge/chime2015/">The 3rd CHiME Speech Separation and Recognition Challenge</a> and contains approximately 342 hours of English speech and transcripts from noisy environments and 50 hours of noisy environment audio. The CHiME Challenges focus on distant-microphone automatic speech recognition (ASR) in real-world environments. See the <a href="http://spandh.dcs.shef.ac.uk/chime_challenge/chime2015/index.html">CHIME3 home page</a> for more information.</p><br> <p>The task in CHiME3 was similar to the <a href="http://spandh.dcs.shef.ac.uk/chime_challenge/chime2013/chime2_task2.html"> medium vocabulary track</a> of the CHiME2 Challenge in that the target utterances were taken from CSR-I (WSJ0) Complete (<a href="../../../LDC93S6A/">LDC93S6A</a>), specifically, the 5,000 word subset of read speech from Wall Street Journal news text. CHiME3 involved two types of data: speech data recorded in very noisy environments (on a bus, in a cafe, pedestrian area, and street junction) and noisy utterances generated by artificially mixing clean speech data with noisy backgrounds.</p><br> <p>LDC has also released two CHiME2 corpora -- CHiME2 Grid (<a href="../../../LDC2017S07">LDC2017S07</a>) and CHiME2 WSJ0 (<a href="../../../LDC2017S10">LDC2017S10</a>).</p><br> <h3>Data</h3><br> <p>Data is divided into training, development and test sets. All data is provided as 16 bit WAV files sampled at 16 kHz. The audio data consists of the background noises, enhanced speech data using the baseline speech enhancement technique, unsegmented noisy speech data, and segmented noisy speech data.</p><br> <p>Annotation files are based on JSON (<a href="http://json.org/">JavaScript Object Notation</a>) format. Transcripts are plain text in either DOT or TRN format. Also included are three software tools for acoustic simulation, speech enhancement, and ASR.</p><br> <h3>Samples</h3><br> <p>Please view the following samples:</p><br> <ul><br> <li><a href="desc/addenda/LDC2017S24.iso.wav">Isolated</a></li><br> <li><a href="desc/addenda/LDC2017S24.enh.wav">Enhanced</a></li><br> <li><a href="desc/addenda/LDC2017S24.emb.wav">Embedded</a></li><br> <li><a href="desc/addenda/LDC2017S24.bac.wav">Background</a></li><br> <li><a href="desc/addenda/LDC2017S24.txt">Transcript</a></li><br> </ul><br> <h3>Updates</h3><br> <p>None at this time.</p></br> Portions © 1987-1989 Dow Jones & Company, Inc., © 2017 Inria Nancy - Grand Est, University of Sheffield, Mitsubishi Electric Research Labs, Fondazione Bruno Kessler, © 1992, 1993, 1996, 2017 Trustees of the University of Pennsylvania

<h3>引言</h3><br><p>CHiME3数据集是作为<a href="http://spandh.dcs.shef.ac.uk/chime_challenge/chime2015/">第三届CHiME语音分离与识别挑战赛</a>的一部分开发而来，包含约342小时来自嘈杂环境的英语语音及对应转写文本，以及50小时嘈杂环境音频。CHiME系列挑战赛聚焦真实场景下的远场麦克风自动语音识别（Automatic Speech Recognition, ASR）。如需了解更多信息，请访问<a href="http://spandh.dcs.shef.ac.uk/chime_challenge/chime2015/index.html">CHIME3官方主页</a>。</p><br><p>CHiME3的任务与<a href="http://spandh.dcs.shef.ac.uk/chime_challenge/chime2013/chime2_task2.html">CHiME2挑战赛中词汇量赛道</a>类似，其目标语音均取自CSR-I（WSJ0）完整语料库（<a href="../../../LDC93S6A/">LDC93S6A</a>），具体为《华尔街日报》新闻文本的5000词朗读语音子集。CHiME3包含两类数据：一是在高嘈杂环境（公交车内、咖啡馆、步行区及路口）中录制的语音数据，二是通过将纯净语音与嘈杂背景人工混合生成的带噪语音片段。</p><br><p>语言数据联盟（Linguistic Data Consortium, LDC）还发布了两款CHiME2语料库——CHiME2 Grid（<a href="../../../LDC2017S07">LDC2017S07</a>）与CHiME2 WSJ0（<a href="../../../LDC2017S10">LDC2017S10</a>）。</p><br><h3>数据</h3><br><p>数据集划分为训练集、开发集与测试集。所有数据均以16位WAV格式存储，采样率为16 kHz。音频数据包含背景噪声、采用基线语音增强技术生成的增强语音、未分段带噪语音以及已分段带噪语音。</p><br><p>标注文件基于JSON（JavaScript对象表示法，<a href="http://json.org/">JavaScript Object Notation</a>）格式。转写文本为纯文本格式，支持DOT或TRN两种文件类型。数据集还附带三款软件工具，分别用于声学仿真、语音增强及自动语音识别（ASR）。</p><br><h3>样本</h3><br><p>请查看以下样本：</p><br><ul><br><li><a href="desc/addenda/LDC2017S24.iso.wav">孤立语音</a></li><br><li><a href="desc/addenda/LDC2017S24.enh.wav">增强语音</a></li><br><li><a href="desc/addenda/LDC2017S24.emb.wav">嵌入语音</a></li><br><li><a href="desc/addenda/LDC2017S24.bac.wav">背景噪声</a></li><br><li><a href="desc/addenda/LDC2017S24.txt">转写文本</a></li><br></ul><br><h3>更新记录</h3><br><p>暂无更新记录。</p><br><p>部分内容 © 1987-1989 道琼斯公司（Dow Jones & Company, Inc.）、© 2017 法国国家信息与自动化研究所南希-大东部分部、谢菲尔德大学、三菱电机研究实验室、布鲁诺·凯塞利基金会，以及 © 1992、1993、1996、2017 宾夕法尼亚大学理事会</p>

提供机构：

Linguistic Data Consortium

创建时间：

2020-11-30

搜集汇总

数据集介绍