ALIA-heritage-parallel-translation

Hugging Face2026-03-09 更新2026-03-10 收录

下载链接：

https://huggingface.co/datasets/SINAI/ALIA-heritage-parallel-translation

下载链接

链接失效反馈

官方服务：

资源简介：

ALIA文化遗产平行翻译语料库（ES→EN）是ALIA平行翻译语料库的文化遗产子集，专注于西班牙文化遗产领域。该数据集包含683,919个平行文本块和288,955个完整文档（西班牙语-英语），源文本为西班牙语，目标文本使用Qwen3-14B大语言模型自动翻译成英语。数据集提供两种配置：分块（chunked）和合并（merged），分别对应单个翻译块和完整重建文档。数据集适用于文化遗产领域的机器翻译模型训练、微调和评估，支持文档级和多段落翻译研究。数据集由SINAI研究组（西班牙哈恩大学）通过ALIA项目开发，采用CC BY-SA 4.0许可协议。

创建时间：

2026-03-03

原始信息汇总

ALIA Cultural Heritage Parallel Translation Corpus (ES→EN) 数据集概述

数据集基本信息

数据集名称：ALIA Cultural Heritage Parallel Translation Corpus (ES→EN)
许可协议：CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/)
任务类别：翻译
涉及语言：西班牙语 (es)、英语 (en)
标签：机器翻译、平行语料库、西班牙语-英语、遗产、特定领域、文化遗产、西班牙
规模类别：100K < n < 1M
维护者：SINAI Research Group (Intelligent Systems for Information Access) — Universidad de Jaén, through the Center for Advanced Studies in Information and Communication Technologies (CEATIC)
资助方：Ministerio para la Transformación Digital y de la Función Pública — Funded by EU – NextGenerationEU, within the framework of the project Desarrollo de Modelos ALIA
项目仓库：ALIA Project — SINAI (https://github.com/sinai-uja/ALIA-UJA)

数据集描述

该数据集是大型ALIA平行翻译语料库的文化遗产子集，专注于西班牙文化遗产。它提供文档级别的西班牙语-英语平行文本，源文本为西班牙语，翻译使用Qwen3-14B大语言模型自动生成。

数据集包含来自ALIA项目文化遗产领域的683,919个平行文本块和288,955个完整文档（西班牙语-英语）。它涵盖与西班牙文化遗产相关的文本。

数据集配置

数据集提供两种互补的配置：

chunked配置：包含683,919个独立的翻译平行块（每个最多2,560个标记），保留了自动化流程中使用的细粒度翻译单元。
merged配置：包含288,955个完整重建的平行文档，其中属于同一源文档的所有块按顺序连接。

注意：未对翻译进行人工质量评估。用户应将这些视为机器生成的翻译，并根据需要进行自己的质量评估。

数据集结构

配置概览

配置	描述	行数	列数	西班牙语标记 (`text_es`)	英语标记 (`text_en`)	文件大小
`chunked`	独立翻译块（最多约2,560个标记）	683,919	3	1,083,614,886 (约1.08B)	848,406,573 (约848M)	约2.6 GB (Parquet Snappy)
`merged`	完整文档（块连接后）	288,955	3	1,083,614,886 (约1.08B)	848,406,573 (约848M)	约2.8 GB (Parquet Snappy)

两种配置包含相同的基础文本——chunked作为独立的翻译单元，merged作为完全重建的文档——因此共享相同的标记总数。标记使用tiktoken cl100k_base进行计数。

领域分布

该数据集属于ALIA平行语料库系列的文化遗产领域（ID前缀01）。

领域分布（按ID前缀）：

领域	ID前缀	主要来源
文化遗产	`01-XX-XXXXX` (merged) / `01-XX-XXXXX-XXX` (chunked)	100个集合（见下文）

id字段使用零填充的数字段编码完整的来源信息：

领域前缀：01（文化遗产）
来源索引 (XX)：2位数字，标识来源集合（00–99）
文档索引 (XXXXX)：5位数字，标识来源集合内的文档（每个来源重置为00000）
块索引 (XXX，仅chunked)：3位数字，标识文档内的块（每个文档重置为000）

所有段都零填充到固定宽度，该宽度由整个数据集中的最大计数决定，确保所有ID具有相同的总长度。

来源索引映射（100个集合）：

来源索引	来源ID
00	Actas_De_Arquitectura_Religiosa_Contemporanea
01	Adquisiciones_Archivo_Historico
02	Bienes_Culturales_Castilla_LaMancha
03	Fiestas_Patrimoniales
04	Guia_Digital_Patrimonio_Andalucia_Paisaje_Cultural
05	Guia_Digital_Patrimonio_Andalucia_Patrimonio_Inmaterial
06	Guia_Digital_Patrimonio_Andalucia_Patrimonio_Inmueble
07	Guia_Digital_Patrimonio_Andalucia_Patrimonio_Mueble
08	Libros_Instituto_Geografico_Nacional
09	Mineralogia_Topologia_Iberica_Acopios
10	Mineralogia_Topologia_Iberica_Amalgama
11	Mineralogia_Topologia_Iberica_Hastial
12	Mineralogia_Topologia_Iberica_Lamparas
13	Ministerio_De_Cultura_Patrimonio_Audiovisual_Cine_Español
14	Ministerio_De_Cultura_Patrimonio_Filmoteca_Española
15	Obras_Singulares_Museos_Andalucia
16	Patrimonio_Anales_De_Historia_Del_Arte
17	Patrimonio_Arqueologia_Y_Territorio_Medieval
18	Patrimonio_Boletin_De_Literatura_Oral
19	Patrimonio_Castilla_Y_Leon
20	Patrimonio_Cataluña
21	Patrimonio_Cuadernos_De_Arte_Prehistorico
22	Patrimonio_Cultural_Inmaterial_Comunidades_Autonomas
23	Patrimonio_Cultural_Inmaterial_España
24	Patrimonio_Cultural_Inmaterial_UNESCO
25	Publicaciones_Patrimonio_Cultural_Madrid
26	Publicaciones_Patrimonio_Subdireccion_Defensa
27	Repositorio_Activos_Digitales_Andalucia
28	Revista_ASRI
29	Revista_Acotaciones
30	Revista_Ad_Limina
31	Revista_Amaltea
32	Revista_Anales_De_Arqueologia_Cordobesa
33	Revista_Andelma
34	Revista_Anuario_Calderoniano
35	Revista_Anuario_Lope_De_Vega
36	Revista_Aragon_En_La_Edad_Media
37	Revista_Arte_Individuo_Y_Sociedad
38	Revista_AusArt
39	Revista_Baetica
40	Revista_Brumal
41	Revista_Buñueliana
42	Revista_Castilla
43	Revista_Cauriensia
44	Revista_Complutum
45	Revista_Crater
46	Revista_Cuadernos_De_Historia_Contemporanea
47	Revista_Cuadernos_De_Historia_Moderna
48	Revista_Cuadernos_De_Ilustracion_Y_Romanticismo
49	Revista_Cuadernos_De_Prehistoria_Y_Arqueologia
50	Revista_De_Medio_Aevo
51	Revista_Edad_De_Oro
52	Revista_Edad_Media
53	Revista_Eikon
54	Revista_El_Futuro_Del_Pasado
55	Revista_El_Pajaro_De_Benin
56	Revista_Electronica_Complutense_De_Investigacion_En_Educacion_Musical
57	Revista_En_La_España_Medieval
58	Revista_Escritura_Imagen
59	Revista_Estudios_Romanicos
60	Revista_Estudis
61	Revista_Folklore
62	Revista_Ge-conservacion
63	Revista_Hidalguia
64	Revista_Hipogrifo
65	Revista_Historia_Social_Y_De_La_Educacion
66	Revista_Ilu
67	Revista_Imago
68	Revista_Investigaciones_De_Historia_Economica
69	Revista_Investigaciones_Historicas_Epoca_Moderna_Y_Contemporanea
70	Revista_Lucentum
71	Revista_Memoria_Ecclesiae
72	Revista_Molinum
73	Revista_MuseosEs
74	Revista_Otarq
75	Revista_Paleohispanica
76	Revista_Panta_Rei
77	Revista_Pasavento
78	Revista_Potestas
79	Revista_Pygmalion
80	Revista_Quiroga
81	Revista_ReVisiones
82	Revista_Riparia
83	Revista_Rubrica_Contemporanea
84	Revista_Saguntum
85	Revista_Saitabi
86	Revista_Santander_Estudios_Patrimonio
87	Revista_Sarmental
88	Revista_Signa
89	Revista_Studia_Aurea
90	Revista_UcoArte
91	Revistas_CSIC
92	Revistas_Cultura_Jaume_I
93	Revistas_Culturales_Biblioteca_Virtual_Prensa_Historica
94	Revistas_Instituto_Andaluz_Patrimonio_Historico
95	Somos_Patrimonio
96	Tabula
97	Tesis_Palacios
98	UNESCO
99	Wikipedia_Cultura_España

数据实例

`chunked`配置

json { "id": "01-99-00042-003", "text_es": "Estos itinerarios están situados dentro de las zonas de baño...", "text_en": "These routes are located within the bathing areas..." }

`merged`配置

json { "id": "01-99-00042", "text_es": "Texto completo del documento en español, con todos los fragmentos concatenados separados por saltos de línea...", "text_en": "Full English translation of the document, with all chunks concatenated separated by newlines..." }

数据字段

字段描述

id (字符串)：编码完整来源信息的结构化标识符。
- merged格式：{domain}-{source_idx}-{doc_idx}，例如：01-99-00042
- chunked格式：{domain}-{source_idx}-{doc_idx}-{chunk_idx}，例如：01-99-00042-003 所有数字段都零填充到固定宽度，该宽度由数据集中的最大计数决定（100个来源 → 2位数字；每个来源最多99,999个文档 → 5位数字；每个文档最多999个块 → 3位数字）。
text_es (字符串)：西班牙语源文本。
- 在chunked配置中：一个最多2,560个标记的块，通过在段落和句子边界处分割原始文档获得。
- 在merged配置中：完整的文档文本，通过按顺序连接所有块重建，用分隔。
text_en (字符串)：text_es的自动英语翻译，由Qwen3-14B通过vLLM生成。
- 在chunked配置中：单个块的翻译。
- 在merged配置中：完整文档的翻译，与text_es类似地重建。

数据统计

标记统计（使用tiktoken cl100k_base标记器测量，在chunked配置上计算）：

指标	西班牙语 (`text_es`)	英语 (`text_en`)
总行数 (`chunked`)	683,919	683,919
总文档数 (`merged`)	288,955	288,955
总标记数	1,083,614,886 (约1.08B)	848,406,573 (约848M)
平均标记数/块	约1,584.5	约1,240.4

两种配置共享相同的标记总数（相同内容，不同粒度）。

存储：

配置	格式	大小
`chunked`	Parquet (Snappy)	约2.6 GB
`merged`	Parquet (Snappy)	约2.8 GB

数据集用途

该语料库的主要目的是支持专门用于文化遗产领域（西班牙语→英语）的机器翻译模型的训练、微调和评估，应用包括：

为特定领域的机器翻译训练和微调大语言模型。
在文化遗产领域进行翻译模型的持续预训练和领域适应。
使用标准指标（BLEU, chrF++, COMET, COMET-Kiwi, TER, BLEURT, MetricX）评估翻译质量。
文档级和多段落翻译研究。
文化遗产集合中的跨语言信息检索。
在文化遗产和人文学科背景下对机器翻译系统进行基准测试。

数据集创建

源数据

文化遗产语料库是从记录西班牙文化遗产的100个来源集合中编译而成。所有来源都是公开可用的或官方可访问的。

所有数据均来自与西班牙文化遗产文档相关的公共或官方可访问来源。

自动翻译过程

所有翻译均使用以下流程自动生成：

翻译模型

参数	值
模型	Qwen3-14B
模型许可	Apache 2.0 (https://www.apache.org/licenses/LICENSE-2.0)
推理引擎	vLLM
硬件	4 × NVIDIA A100 (tensor_parallel_size=4)
模式	非思考模式 (`enable_thinking=False`)
`max_model_len`	40,960 标记
`gpu_memory_utilization`	0.89

生成参数

参数	值
`temperature`	0.7
`top_p`	0.8
`top_k`	20
`max_tokens`	4,096
`min_p`	0.0

系统提示

所有翻译均使用以下系统提示（西班牙语文本直接作为用户消息传递）：

You are a professional Spanish-to-English translator. Translate the following Spanish text into English. Rules:

Output ONLY the English translation, nothing else.
Do NOT add any commentary, explanation, or extra text.
Do NOT add content that is not in the original text.
Maintain academic tone and technical terminology.
Preserve all formatting (line breaks, special characters, etc.).
Your output must be SHORTER or EQUAL in length to the input. Never produce a longer output than the source text.

标注

该数据集不包含手动标注。内容包括：

来自公开文化遗产文档的西班牙语源文本。
由Qwen3-14B自动生成的翻译。
在重新索引流程中自动分配的结构化标识符 (id)，编码领域、来源、文档和块的来源信息。

个人和敏感信息

文档来源于公开可用的文化遗产文档。某些文本可能包含：

在官方文档中作为公众人物的文化人物、艺术家、工匠和遗产专家的姓名。
与文化遗产实践相关的社区和地理位置的引用。
博物馆、档案馆和遗产组织的机构引用。

用户责任：建议用户根据具体用例应用额外的隐私控制措施。

使用数据的注意事项

数据集的社会影响

该语料库有助于：

民主化获取遗产信息：为国际研究人员、机构和公众提供对西班牙文化遗产文档的跨语言访问。
支持遗产保护研究：为历史上代表性不足的领域的NLP研究提供大规模平行资源。
国家AI战略：通过ALIA项目，支持西班牙开发具有透明度标准的西班牙语基础AI模型的战略目标。
多语言数字人文：促进英语用户访问西班牙文化遗产学术研究和文档。

偏差讨论

来源代表性偏差：

该语料库反映了西班牙数字化和公开可访问的文化遗产文档的可用性。来源可能过度代表官方认可或数字化程度较高的遗产，而非较少...

搜集汇总

数据集介绍

构建方式

在文化遗产领域，西班牙语文献的数字化与多语言转换是推动全球学术交流的关键环节。ALIA文化遗产平行翻译语料库的构建过程体现了系统性数据工程与先进自然语言处理技术的融合。该数据集源自一百个公开的西班牙文化遗产文献集合，涵盖建筑、考古、民俗、艺术等多个子领域。原始西班牙语文本经过段落与句子边界的分块处理，形成最大长度为2560个标记的翻译单元。随后，利用Qwen3-14B大语言模型配合vLLM推理引擎，在四张NVIDIA A100 GPU上执行自动化翻译流程。翻译过程采用严格的系统提示，要求模型仅输出对应英文译文，保持学术语气与专业术语，并确保译文长度不超过原文。最终生成的数据通过结构化标识符编码了完整的来源信息，包括领域、文献集合、文档及分块索引，形成包含68.4万个平行分块与28.9万个完整文档的双配置语料库。

使用方法

在机器翻译与跨语言信息检索研究中，该数据集为文化遗产领域的模型专业化提供了重要资源。用户可通过Hugging Face数据集库以流式模式加载数据，推荐使用分块配置进行翻译模型训练与微调，或利用合并配置开展文档级翻译评估。数据加载时可通过标识符前缀过滤特定来源集合，例如筛选源自西班牙文化遗产维基百科的文本。对于需要完整文档上下文的场景，可直接使用合并配置，或通过编程方式将分块配置中的相关单元按标识符排序后拼接。数据集适用于BLEU、chrF++、COMET等自动评价指标的测算，也可用于跨语言检索系统的基准测试。鉴于数据规模较大，建议在内存受限环境中采用流式处理，并注意译文为机器生成的性质，在关键应用中应结合人工校验或后编辑流程。

背景与挑战

背景概述

ALIA-heritage-parallel-translation数据集是ALIA项目在文化遗产领域的重要成果，由西班牙哈恩大学SINAI研究小组于近年主导构建，并得到西班牙数字转型与公共职能部及欧盟NextGenerationEU基金的支持。该数据集聚焦于西班牙文化遗产文本的西班牙语至英语的机器翻译任务，旨在通过大规模领域专用平行语料库的创建，提升专业领域机器翻译模型的性能与适应性。其核心研究问题在于解决文化遗产这一低资源、高专业性的领域在机器翻译中面临的术语准确性与语境一致性挑战，为跨语言文化遗产信息检索与数字人文研究提供了关键的数据基础。

当前挑战

该数据集致力于解决文化遗产领域机器翻译的核心挑战，即如何准确处理大量专业术语、历史叙述与复杂文化概念，并保持文档级语境的一致性。在构建过程中，面临多重技术难题：首先，需要从百余个异构的公开文化遗产文档源中提取、清洗并规范化文本，确保数据质量与格式统一；其次，利用Qwen3-14B大模型进行全自动翻译时，需设计严格的生成策略以控制输出长度与学术风格，同时避免引入模型本身的幻觉或偏差。此外，由于缺乏人工质量评估，翻译结果的可靠性完全依赖自动化流程，这为后续研究与应用带来了需谨慎验证的潜在风险。

常用场景

经典使用场景

在文化遗产机器翻译研究领域，ALIA-heritage-parallel-translation数据集为西班牙语至英语的领域专用翻译模型提供了关键训练资源。该数据集通过Qwen3-14B大语言模型自动生成的68万余条平行语块，覆盖了西班牙文化遗产领域的专业术语与学术表达，特别适用于构建具有领域适应性的神经机器翻译系统。研究者可利用其分块配置进行细粒度翻译单元训练，或通过合并配置开展文档级连贯性翻译研究，为文化遗产文本的跨语言转换建立了标准化实验平台。

解决学术问题

该数据集有效解决了文化遗产领域机器翻译研究中数据稀缺的核心难题。传统通用翻译模型在处理专业术语、历史概念和文化专有名词时往往表现欠佳，而本数据集提供的百万级平行语料填补了这一领域专用资源的空白。通过覆盖建筑、考古、非物质文化遗产等100个专业子领域，它为研究领域适应、术语一致性保持、文档级翻译连贯性等前沿课题提供了实证基础，推动了文化遗产数字化保护与跨语言传播的学术进展。

实际应用

在文化遗产数字化实践中，该数据集支撑着多语言文化遗产信息系统的构建。博物馆、档案馆等机构可基于训练后的翻译模型，将西班牙语文化遗产资料自动转化为英语版本，促进国际学术交流与公众教育。数字人文研究领域可利用该资源开发跨语言检索工具，帮助全球研究者访问西班牙文化遗产文献。此外，文化遗产管理机构能够借助领域专用翻译技术，高效制作多语言导览材料与数字展览内容，提升文化遗产的国际可见度与传播效能。

数据集最近研究