five

aidatatang|语音识别数据集|机器翻译数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
语音识别
机器翻译
下载链接:
https://opendatalab.org.cn/OpenDataLab/aidatatang
下载链接
链接失效反馈
资源简介:
aidatatang语料库的内容和相应的描述包括: 语料库包含200小时的声学数据,主要是移动记录的数据。 邀请了来自中国不同口音地区的600位演讲者参与录音。 每个句子的转录准确率大于 98%。 录音在安静的室内环境中进行。 数据库按7:1:2的比例分为训练集、验证集和测试集。 语音数据编码和说话人信息等详细信息保留在元数据文件中。 还提供了分段的成绩单。 该语料库旨在支持语音识别、机器翻译、声纹识别和其他语音相关领域的研究人员。因此,语料库完全免费供学术使用。每个句子的转录准确率大于 98%。
提供机构:
OpenDataLab
创建时间:
2023-06-25
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

(주)동구바이오제약 2024년 기업정보 | 직원수, 근무환경, 복리후생 등

(주)동구바이오제약 기업소개 - 업력 : 42년차, 기업형태 : -, 업종 : 완제 의약품 제조업 | (주)동구바이오제약의 직원수, 연봉, 채용, 근무환경, 복리후생, 재무정보 등이 궁금하시다면, 사람인에서 더 많은 정보를 확인해보세요.

www.saramin.co.kr 收录

alpacaGPT4_llama8b-v120-jb-seed2-alpaca_512_ngt0.7_tp0.9

该数据集包含了用户和助手之间的对话,具有用户和助手发言的文本特征,以及一个索引级别特征。数据集分为训练集,共有52001条对话记录。

huggingface 收录

CACD

跨年龄名人数据集是用于跨年龄人脸识别和检索的数据集。它包含 2,000 位名人的 163,446 张图像。该数据集于 2014 年由马里兰大学计算机科学系发表,论文名为 cross-age Reference Coding for Age-invariant Face Recognition and Retrieval。

OpenDataLab 收录

CFBenchmark

CFBenchmark是一个专为评估大型语言模型在中文金融助理领域性能而设计的数据集。由同济大学和上海人工智能实验室联合创建,该数据集包含3917个金融文本,覆盖金融识别、分类和生成三大方面,共计八个任务。数据集内容丰富,包括金融新闻和研究报告,文本长度从50字到超过1800字不等,旨在全面测试模型在金融文本处理中的基本能力。创建过程中,专业研究人员对文本进行了严格的筛选和标注,确保数据质量。CFBenchmark的应用领域广泛,主要用于提升金融决策的自动化和智能化水平,解决金融文本处理中的关键问题。

arXiv 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录