有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
Indian-Language-Dataset
该数据集是一个经过清洗和预处理的平行语料库,专门为五种资源较少的印度语言设计。
ID | 语言 | 训练集 | 测试集 | 开发集 |
---|---|---|---|---|
1 | Tamil | 183451 | 2000 | 1000 |
2 | Malayalam | 548000 | 3660 | 3000 |
3 | Telugu | 75000 | 3897 | 3000 |
4 | Bengali | 658000 | 3255 | 3500 |
5 | Urdu | 36000 | 2454 | 2000 |
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
Arizona Cities by Population
A dataset listing Arizona cities by population for 2024.
www.arizona-demographics.com 收录
默沙东诊疗手册专业版
默沙东诊疗手册专业版
魔搭社区 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录