five

CrowdED Corpus

收藏
DataCite Commons2026-02-10 更新2026-05-04 收录
下载链接:
https://www.ortolang.fr/market/item/ortolang-000913/v2
下载链接
链接失效反馈
官方服务:
资源简介:
Crowdsourced speech corpus of English by native speakers and German/English by bilinguals answering business-topic questions of the type found in language learning oral exams. Contains soundfiles and annotated transcriptions. Reported in the proceedings of the Language Resources amp; Evaluation Conference 2016. Funded by Crowdee and CrowdFlower.In 2020 corrected transcriptions and grammatical error annotations were added for a subset of 383 of the English recordings. This work was reported in the proceedings of COLING 2020. Supported by Cambridge Language Sciences Research Incubator Fund, the Isaac Newton Trust, and Cambridge Assessment, University of Cambridge.

本众包语音语料库包含两类语音数据:一类是以英语为母语者录制的英语语音,另一类是双语使用者录制的德英双语语音,内容均为回答语言学习口语考试中常见的商务主题问题。该语料库包含音频文件与标注转录文本,其相关研究成果发表于2016年语言资源与评估会议(Language Resources & Evaluation Conference 2016)论文集,由Crowdee与CrowdFlower资助。2020年,研究团队为其中383条英语录音子集补充了校正后的转录文本与语法错误标注,该项更新工作的相关成果发表于COLING 2020(国际计算语言学大会)论文集,并得到剑桥大学剑桥语言科学研究孵化基金、艾萨克·牛顿信托基金以及剑桥大学剑桥考评部的支持。
提供机构:
ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr
创建时间:
2026-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作