ESO dataset
收藏github2024-04-15 更新2024-05-31 收录
下载链接:
https://github.com/mllpresearch/ESO-dataset
下载链接
链接失效反馈官方服务:
资源简介:
ESO数据集是一个英语肿瘤学领域的语音语料库,用于自动语音识别(ASR)训练和基准测试以及机器翻译(MT)基准测试。
The ESO dataset is a speech corpus in the field of English oncology, designed for automatic speech recognition (ASR) training and benchmarking, as well as for machine translation (MT) benchmarking.
创建时间:
2024-03-27
原始信息汇总
ESO数据集概述
数据集描述
- 名称: ESO数据集 v1.0
- 网址: www.mllp.upv.es/eso-dataset
- 用途: 用于自动语音识别(ASR)训练和基准测试,以及机器翻译(MT)基准测试。
- 领域: 肿瘤学
- 关键词: 自动语音识别, 领域适应, 大型语言模型, 机器翻译, 肿瘤学, 语音语料库, 语音翻译
数据集内容
- 语音数据:
- 745小时英语语音数据,其中287小时包含手动转录。
- 3套完整的时间同步手动转录。
- 开发集和测试集均包含时间同步的手动翻译。
数据获取
- 下载地址: https://www.mllp.upv.es/eso-dataset/eso_v1.0.tar.gz
- 文件大小: 41 GiB(压缩文件)
- SHA-256校验和: 24529aa4641cdc8b13f235f4fc2a295ab46e159fdaf846e561504ebacd498c6a
数据集结构
- 总大小: 48 GiB(未压缩)
- 组织结构:
- 包含"train"(训练数据)、"dev"(验证数据)和"test"(评估数据)三个主要目录。
- "dev"和"test"目录下每个样本目录包含音频文件、幻灯片和两个子目录:一个包含转录数据,另一个包含手动翻译数据。
- "train"目录包含多个列表,分别对应不同类型的数据子集。
致谢
- 该工作获得欧盟4Health计划2021-2027资助,作为欧洲抗击癌症计划的一部分。
- 感谢欧洲肿瘤学校提供数据集。
搜集汇总
数据集介绍

构建方式
ESO数据集的构建基于欧洲肿瘤学领域的英语语音数据,涵盖了745小时的语音数据,其中287小时包含手动转录。数据集的构建过程包括语音数据的采集、手动转录以及时间对齐的翻译。语音数据来源于欧洲肿瘤学校(ESO)的在线平台e-ESO,经过精心整理和标注,形成了包含训练、验证和测试集的完整数据结构。
特点
ESO数据集的显著特点在于其专注于肿瘤学领域的语音数据,提供了丰富的手动转录和时间对齐的翻译,支持自动语音识别(ASR)和机器翻译(MT)的训练与基准测试。数据集结构清晰,包含多个子目录,分别存储音频文件、转录文本、时间对齐的转录和翻译数据,便于用户进行多语言处理和领域适应研究。
使用方法
ESO数据集的使用方法简便,用户可通过提供的下载链接获取完整数据集,解压后可直接访问训练、验证和测试集。数据集的结构设计便于用户根据需求提取特定样本,进行自动语音识别或机器翻译的模型训练与评估。用户可根据数据集中的列表文件筛选包含特定特征的样本,如手动转录或幻灯片数据,从而优化模型训练过程。
背景与挑战
背景概述
ESO数据集是由欧洲肿瘤学校(European School of Oncology, ESO)提供的英语肿瘤学领域语音语料库,旨在支持自动语音识别(ASR)训练与基准测试以及机器翻译(MT)基准测试。该数据集的核心研究问题聚焦于在肿瘤学领域内,如何通过大规模语言模型和语音翻译技术提升医疗专业人员的沟通效率与信息准确性。ESO数据集的构建得到了欧盟4Health计划和西班牙政府的资助,其研究成果对肿瘤学领域的语音识别与翻译技术的发展具有重要推动作用。
当前挑战
ESO数据集在构建过程中面临多项挑战。首先,肿瘤学领域的专业术语复杂且多样,这对语音识别和机器翻译的准确性提出了高要求。其次,数据集包含745小时的语音数据,其中287小时为手动转录,数据量大且处理复杂,确保转录与翻译的准确性和一致性是一个技术难题。此外,跨语言翻译的时序对齐问题也是该数据集面临的重要挑战,尤其是在多语言环境下保持翻译的精确性与流畅性。
常用场景
经典使用场景
ESO数据集在肿瘤学领域的自动语音识别(ASR)和机器翻译(MT)任务中展现了其经典应用价值。该数据集包含了大量英语肿瘤学领域的语音数据,其中部分数据附有手动转录和时间对齐的翻译,为ASR和MT模型的训练与评估提供了丰富的资源。通过利用这些数据,研究者能够开发和优化针对肿瘤学领域的语音识别和翻译系统,从而提升医疗专业人员在处理肿瘤学相关信息时的效率和准确性。
实际应用
ESO数据集在实际应用中主要用于医疗信息处理,特别是在肿瘤学领域的语音识别和翻译系统中。例如,医生可以通过语音输入快速记录病历,系统自动将其转换为文本,并翻译成不同语言以供国际合作使用。此外,该数据集还可用于开发智能辅助诊断系统,通过语音识别和翻译技术,帮助医生快速获取和理解国际前沿的肿瘤学研究成果,从而提升诊疗水平。
衍生相关工作
ESO数据集的发布激发了大量相关研究工作,特别是在肿瘤学领域的语音识别和机器翻译方面。许多研究者基于该数据集开发了新的ASR和MT模型,并进行了深入的性能评估和优化。此外,该数据集还促进了跨语言医疗信息处理的研究,推动了多语言医疗资源共享和国际医疗合作的发展。相关工作不仅提升了技术水平,也为医疗领域的智能化和国际化提供了有力支持。
以上内容由遇见数据集搜集并总结生成



