ACADData

Name: ACADData
Creator: 巴塞罗那超级计算中心 (BSC)
Published: 2025-10-15 14:42:22
License: 暂无描述

arXiv2025-10-15 更新2025-10-16 收录

下载链接：

https://huggingface.co/datasets/BSC-LT/ACAData

下载链接

链接失效反馈

官方服务：

资源简介：

ACADData 是一个高质量的学术翻译平行数据集，包含两个子集：ACAD-train 和 ACAD-bench。ACAD-train 包含约 150 万个人工生成的段落对，涵盖 12 种语言；ACAD-bench 是一个经过精心策划的评估集，包含近 6000 个翻译实例，涵盖 12 个方向。该数据集用于学术翻译，旨在解决特定领域术语、新兴新词和复杂句法结构等问题。数据集创建过程包括从各种科学、学术和政府存储库中提取摘要，并通过 OAI-PMH 接口收集数据。ACADData 可用于学术领域和长上下文翻译的研究和开发。

ACADData is a high-quality parallel dataset for academic translation, consisting of two subsets: ACAD-train and ACAD-bench. ACAD-train contains approximately 1.5 million manually generated paragraph pairs covering 12 languages. ACAD-bench is a carefully curated evaluation set with nearly 6,000 translation instances across 12 language directions. This dataset is designed for academic translation, aiming to address challenges such as domain-specific terminology, emerging neologisms, and complex syntactic structures. The dataset creation process includes extracting abstracts from various scientific, academic, and government repositories, and collecting data via the OAI-PMH interface. ACADData can be used for research and development in the fields of academic translation and long-context translation.

提供机构：

巴塞罗那超级计算中心 (BSC)

创建时间：

2025-10-14

原始信息汇总

ACAData 数据集概述

数据集基本信息

许可证: CC-BY-4.0
任务类别: 机器翻译
语言: 西班牙语(es)、英语(en)、加泰罗尼亚语(ca)、葡萄牙语(pt)、法语(fr)、巴斯克语(eu)、加利西亚语(gl)、德语(de)、荷兰语(nl)、希腊语(el)、意大利语(it)
数据规模: 100万到1000万条之间

数据集描述

ACAData是一个多语言指令调优数据集，包含来自学术领域的平行文本段落。

数据集结构

数据子集

ACAD-Train: 训练集，包含739,211条原始实例，转换为指令格式后为1,478,422个训练实例
ACAD-Bench: 基准测试集，包含5,944个实例，已覆盖双向翻译方向

数据字段

lang1_code: 第一种文本的ISO语言代码
lang2_code: 第二种文本的ISO语言代码
lang1: 双语实例中的第一种文本
lang2: 双语实例中的第二种文本

数据格式

训练集: Parquet格式，每行包含跨多种语言对齐的段落
基准测试集: Parquet格式，已包含双向翻译实例

数据集创建

数据来源

从多个欧洲学术知识库的元数据中获取，使用OAI-PMH协议收集

数据处理流程

使用LaBSE提取嵌入并计算余弦相似度
选择相似度≥0.80的翻译对
使用GlotLID进行语言识别
应用文本预处理和规范化

评估结果

数据集包含详细的机器翻译评估结果，涵盖XX↔EN和XX↔ES翻译方向，评估指标包括d-BLEU、BP、Blonde、Comet和Comet-Kiwi。

使用注意事项

数据来自学术领域，在其他领域应用可能受限
未应用特定的偏见缓解策略
可能包含个人和敏感信息
需要适当的数据使用考虑

维护信息

维护机构: 巴塞罗那超级计算中心语言技术部
联系方式: langtech@bsc.es
资助来源: 欧盟NextGenerationEU、加泰罗尼亚政府Aina项目、ILENIA项目

搜集汇总

数据集介绍

构建方式

在学术机器翻译领域，高质量平行语料库的构建对提升模型性能至关重要。ACAData数据集通过从多个研究机构的公开学术摘要中提取多语言平行段落构建而成，采用OAI-PMH协议采集元数据，利用LaBSE句子嵌入模型计算跨语言语义相似度，筛选阈值超过0.8的段落对。经过GlotLID语言识别过滤、字符长度筛选及文本规范化处理，最终通过滑动窗口去重技术得到包含146万段落对的训练集和5944个实例的评估集，覆盖12种欧洲语言。

特点

该数据集显著特点在于其学术领域专属性与高质量人工翻译特性。所有文本均源自作者提供的原始翻译，涵盖生物医学、社会科学等26个学科领域，段落平均长度达千字符以上，兼具术语准确性和句式复杂性。其评估集ACAD-bench通过余弦相似度阈值0.91的严格筛选，并经由母语者人工校对，确保语义保真度。多语言覆盖方面包含英语与西班牙语、法语等11种语言的96个翻译方向，其中六对核心语言组合占比超过96%，为学术文本翻译研究提供充分数据支撑。

使用方法

该数据集适用于学术机器翻译系统的训练与评估，其训练集ACAD-train可直接用于大语言模型的监督微调。实验表明，对Salamandra系列模型进行单轮微调后，在ACAD-bench评估集上能使2B和7B模型分别提升12.4和6.1个d-BLEU值。使用时需遵循ChatML指令模板格式化输入，在8,192令牌上下文长度下进行批量训练。评估阶段可通过ACAD-bench测试集衡量模型在长文本翻译、专业术语处理等方面的性能，同时支持与WMT24++通用领域数据的对比验证，全面评估模型领域适应性。

背景与挑战

背景概述

ACAData数据集由巴塞罗那超级计算中心于2025年推出，旨在解决学术领域机器翻译的特定需求。随着非英语科研文献的快速增长，传统机器翻译系统在学术文本处理上面临专业术语、新兴概念和复杂句法结构的挑战。该数据集包含ACAD-train训练集和ACAD-bench评估集，涵盖12种欧洲语言的150万段落级平行语料，其独特价值在于全部采用作者提供的原始翻译，确保了学术文本的准确性和专业性。通过微调实验证明，该数据集能将7B和2B参数模型的学术翻译质量分别提升6.1和12.4 d-BLEU分值，显著推动了学术交流的语言无障碍化进程。

当前挑战

学术机器翻译领域面临双重挑战：在领域问题层面，需攻克专业术语一致性、新兴学术概念准确表达以及复杂学术句式结构保持等核心难题；在构建过程中，遭遇多语言学术文本对齐精度控制、长段落语义相似度计算、低资源语言数据稀缺等技术瓶颈。特别是学术文本特有的跨学科术语变异性和文献引用规范性要求，进一步增加了数据质量控制的复杂度。此外，评估基准需平衡学科覆盖广度与专业深度，确保能准确反映模型在真实学术场景下的翻译能力。

常用场景

经典使用场景

在学术机器翻译研究领域，ACAData数据集凭借其高质量的学术摘要平行语料，成为评估和优化多语言翻译模型的基准资源。该数据集通过包含12种欧洲语言的150万段落级翻译对，为研究者在学术文本翻译任务中提供了标准化的训练与测试平台。其精心构建的ACAD-bench评测集涵盖科学、技术等正式文体，能够有效衡量模型在复杂学术语境下的翻译性能，特别是在处理专业术语和长文本连贯性方面展现出独特价值。

实际应用

在实际应用层面，ACAData为科研机构构建多语言学术知识库提供了核心支撑，使非英语学术成果能够高效转化为国际通用语言。教育机构利用该数据集开发的翻译系统，能够辅助学者快速理解跨语言文献内容，显著提升科研效率。出版机构则依托其构建的学术翻译引擎，实现了多语言期刊论文的自动化翻译与校对，大幅降低了学术传播的时空成本。这些应用切实推动了全球学术资源的无障碍流通与共享。

衍生相关工作

基于ACAData衍生的经典研究呈现出多元化发展态势。Salamandra系列模型通过在该数据集上的微调，实现了学术翻译质量6-12个d-BLEU值的显著提升，开创了小参数模型超越大型商业系统的先例。在长文本翻译研究领域，该数据集催生了基于滑动窗口的文档级嵌入方法，有效解决了学术文本超长上下文的理解难题。此外，围绕该数据集构建的多领域分类评估框架，为学术翻译的细粒度质量评估设立了新标准，推动了翻译评估从句子级到篇章级的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集