five

BSTC(Baidu Speech Translation Corpus)|语音翻译数据集|机器翻译数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
语音翻译
机器翻译
下载链接:
https://opendatalab.org.cn/OpenDataLab/BSTC
下载链接
链接失效反馈
资源简介:
BSTC (百度语音翻译语料库) 是一个大规模的自动同声传译数据集。BSTC版本1.0包含50小时的真实演讲,包括三个部分,音频文件,成绩单和翻译。语料库可用于构建自动同声传译系统。 语料库是从中国普通话谈话和报告中收集的,包括科学、技术、文化、经济等。谈话和报告中的话语被仔细转录成中文文本,并进一步翻译成英文文本。句子边界由英文文本而不是中文文本确定,后者类似于先前的相关语料库 (TED和翻译增强的LibriSpeech语料库)。
提供机构:
OpenDataLab
创建时间:
2022-11-02
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

United States Federal Election Commission (FEC) Databases

该数据集包含美国联邦选举委员会(FEC)的官方数据库,涵盖了选举相关的财务报告、候选人信息、政治行动委员会(PAC)数据、捐赠记录等。这些数据用于公开透明地记录和报告联邦选举的资金流动情况。

www.fec.gov 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

QM9

QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。

quantum-machine.org 收录

Weibo Dataset

V1版本包含了2023年上半年来自微博平台的2,106条新闻数据。其中包含1,000条假新闻和1,067条真实新闻。数据集包含新闻传播的评论数据,包含用户和评论信息。V2版本包含了来自中国微博社交媒体平台的11,329条新闻。其中包含5,661条假新闻和5,668条真实新闻。与V1版本相比,V2版本在V1的基础上扩大了数据量。同时,V2提供了新闻的多模态数据,包括新闻帖子、评论集合、图片、视频和声音信息。因此,V2提供了更真实的社交网络环境模拟,从而支持下游任务。

github 收录

Literature Database, XML, NBVC, Oct 2017

Literature Database, XML format, the Natural Resources of Naval Base Ventura County

Mendeley Data 收录