ALIA-heritage-parallel-translation
收藏ALIA Cultural Heritage Parallel Translation Corpus (ES→EN) 数据集概述
数据集基本信息
- 数据集名称:ALIA Cultural Heritage Parallel Translation Corpus (ES→EN)
- 许可协议:CC BY-SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/)
- 任务类别:翻译
- 涉及语言:西班牙语 (es)、英语 (en)
- 标签:机器翻译、平行语料库、西班牙语-英语、遗产、特定领域、文化遗产、西班牙
- 规模类别:100K < n < 1M
- 维护者:SINAI Research Group (Intelligent Systems for Information Access) — Universidad de Jaén, through the Center for Advanced Studies in Information and Communication Technologies (CEATIC)
- 资助方:Ministerio para la Transformación Digital y de la Función Pública — Funded by EU – NextGenerationEU, within the framework of the project Desarrollo de Modelos ALIA
- 项目仓库:ALIA Project — SINAI (https://github.com/sinai-uja/ALIA-UJA)
数据集描述
该数据集是大型ALIA平行翻译语料库的文化遗产子集,专注于西班牙文化遗产。它提供文档级别的西班牙语-英语平行文本,源文本为西班牙语,翻译使用Qwen3-14B大语言模型自动生成。
数据集包含来自ALIA项目文化遗产领域的683,919个平行文本块和288,955个完整文档(西班牙语-英语)。它涵盖与西班牙文化遗产相关的文本。
数据集配置
数据集提供两种互补的配置:
chunked配置:包含683,919个独立的翻译平行块(每个最多2,560个标记),保留了自动化流程中使用的细粒度翻译单元。merged配置:包含288,955个完整重建的平行文档,其中属于同一源文档的所有块按顺序连接。
注意:未对翻译进行人工质量评估。用户应将这些视为机器生成的翻译,并根据需要进行自己的质量评估。
数据集结构
配置概览
| 配置 | 描述 | 行数 | 列数 | 西班牙语标记 (text_es) |
英语标记 (text_en) |
文件大小 |
|---|---|---|---|---|---|---|
chunked |
独立翻译块(最多约2,560个标记) | 683,919 | 3 | 1,083,614,886 (约1.08B) | 848,406,573 (约848M) | 约2.6 GB (Parquet Snappy) |
merged |
完整文档(块连接后) | 288,955 | 3 | 1,083,614,886 (约1.08B) | 848,406,573 (约848M) | 约2.8 GB (Parquet Snappy) |
两种配置包含相同的基础文本——chunked作为独立的翻译单元,merged作为完全重建的文档——因此共享相同的标记总数。标记使用tiktoken cl100k_base进行计数。
领域分布
该数据集属于ALIA平行语料库系列的文化遗产领域(ID前缀01)。
领域分布(按ID前缀):
| 领域 | ID前缀 | 主要来源 |
|---|---|---|
| 文化遗产 | 01-XX-XXXXX (merged) / 01-XX-XXXXX-XXX (chunked) |
100个集合(见下文) |
id字段使用零填充的数字段编码完整的来源信息:
- 领域前缀:
01(文化遗产) - 来源索引 (
XX):2位数字,标识来源集合(00–99) - 文档索引 (
XXXXX):5位数字,标识来源集合内的文档(每个来源重置为00000) - 块索引 (
XXX,仅chunked):3位数字,标识文档内的块(每个文档重置为000)
所有段都零填充到固定宽度,该宽度由整个数据集中的最大计数决定,确保所有ID具有相同的总长度。
来源索引映射(100个集合):
| 来源索引 | 来源ID |
|---|---|
| 00 | Actas_De_Arquitectura_Religiosa_Contemporanea |
| 01 | Adquisiciones_Archivo_Historico |
| 02 | Bienes_Culturales_Castilla_LaMancha |
| 03 | Fiestas_Patrimoniales |
| 04 | Guia_Digital_Patrimonio_Andalucia_Paisaje_Cultural |
| 05 | Guia_Digital_Patrimonio_Andalucia_Patrimonio_Inmaterial |
| 06 | Guia_Digital_Patrimonio_Andalucia_Patrimonio_Inmueble |
| 07 | Guia_Digital_Patrimonio_Andalucia_Patrimonio_Mueble |
| 08 | Libros_Instituto_Geografico_Nacional |
| 09 | Mineralogia_Topologia_Iberica_Acopios |
| 10 | Mineralogia_Topologia_Iberica_Amalgama |
| 11 | Mineralogia_Topologia_Iberica_Hastial |
| 12 | Mineralogia_Topologia_Iberica_Lamparas |
| 13 | Ministerio_De_Cultura_Patrimonio_Audiovisual_Cine_Español |
| 14 | Ministerio_De_Cultura_Patrimonio_Filmoteca_Española |
| 15 | Obras_Singulares_Museos_Andalucia |
| 16 | Patrimonio_Anales_De_Historia_Del_Arte |
| 17 | Patrimonio_Arqueologia_Y_Territorio_Medieval |
| 18 | Patrimonio_Boletin_De_Literatura_Oral |
| 19 | Patrimonio_Castilla_Y_Leon |
| 20 | Patrimonio_Cataluña |
| 21 | Patrimonio_Cuadernos_De_Arte_Prehistorico |
| 22 | Patrimonio_Cultural_Inmaterial_Comunidades_Autonomas |
| 23 | Patrimonio_Cultural_Inmaterial_España |
| 24 | Patrimonio_Cultural_Inmaterial_UNESCO |
| 25 | Publicaciones_Patrimonio_Cultural_Madrid |
| 26 | Publicaciones_Patrimonio_Subdireccion_Defensa |
| 27 | Repositorio_Activos_Digitales_Andalucia |
| 28 | Revista_ASRI |
| 29 | Revista_Acotaciones |
| 30 | Revista_Ad_Limina |
| 31 | Revista_Amaltea |
| 32 | Revista_Anales_De_Arqueologia_Cordobesa |
| 33 | Revista_Andelma |
| 34 | Revista_Anuario_Calderoniano |
| 35 | Revista_Anuario_Lope_De_Vega |
| 36 | Revista_Aragon_En_La_Edad_Media |
| 37 | Revista_Arte_Individuo_Y_Sociedad |
| 38 | Revista_AusArt |
| 39 | Revista_Baetica |
| 40 | Revista_Brumal |
| 41 | Revista_Buñueliana |
| 42 | Revista_Castilla |
| 43 | Revista_Cauriensia |
| 44 | Revista_Complutum |
| 45 | Revista_Crater |
| 46 | Revista_Cuadernos_De_Historia_Contemporanea |
| 47 | Revista_Cuadernos_De_Historia_Moderna |
| 48 | Revista_Cuadernos_De_Ilustracion_Y_Romanticismo |
| 49 | Revista_Cuadernos_De_Prehistoria_Y_Arqueologia |
| 50 | Revista_De_Medio_Aevo |
| 51 | Revista_Edad_De_Oro |
| 52 | Revista_Edad_Media |
| 53 | Revista_Eikon |
| 54 | Revista_El_Futuro_Del_Pasado |
| 55 | Revista_El_Pajaro_De_Benin |
| 56 | Revista_Electronica_Complutense_De_Investigacion_En_Educacion_Musical |
| 57 | Revista_En_La_España_Medieval |
| 58 | Revista_Escritura_Imagen |
| 59 | Revista_Estudios_Romanicos |
| 60 | Revista_Estudis |
| 61 | Revista_Folklore |
| 62 | Revista_Ge-conservacion |
| 63 | Revista_Hidalguia |
| 64 | Revista_Hipogrifo |
| 65 | Revista_Historia_Social_Y_De_La_Educacion |
| 66 | Revista_Ilu |
| 67 | Revista_Imago |
| 68 | Revista_Investigaciones_De_Historia_Economica |
| 69 | Revista_Investigaciones_Historicas_Epoca_Moderna_Y_Contemporanea |
| 70 | Revista_Lucentum |
| 71 | Revista_Memoria_Ecclesiae |
| 72 | Revista_Molinum |
| 73 | Revista_MuseosEs |
| 74 | Revista_Otarq |
| 75 | Revista_Paleohispanica |
| 76 | Revista_Panta_Rei |
| 77 | Revista_Pasavento |
| 78 | Revista_Potestas |
| 79 | Revista_Pygmalion |
| 80 | Revista_Quiroga |
| 81 | Revista_ReVisiones |
| 82 | Revista_Riparia |
| 83 | Revista_Rubrica_Contemporanea |
| 84 | Revista_Saguntum |
| 85 | Revista_Saitabi |
| 86 | Revista_Santander_Estudios_Patrimonio |
| 87 | Revista_Sarmental |
| 88 | Revista_Signa |
| 89 | Revista_Studia_Aurea |
| 90 | Revista_UcoArte |
| 91 | Revistas_CSIC |
| 92 | Revistas_Cultura_Jaume_I |
| 93 | Revistas_Culturales_Biblioteca_Virtual_Prensa_Historica |
| 94 | Revistas_Instituto_Andaluz_Patrimonio_Historico |
| 95 | Somos_Patrimonio |
| 96 | Tabula |
| 97 | Tesis_Palacios |
| 98 | UNESCO |
| 99 | Wikipedia_Cultura_España |
数据实例
chunked配置
json { "id": "01-99-00042-003", "text_es": "Estos itinerarios están situados dentro de las zonas de baño...", "text_en": "These routes are located within the bathing areas..." }
merged配置
json { "id": "01-99-00042", "text_es": "Texto completo del documento en español, con todos los fragmentos concatenados separados por saltos de línea...", "text_en": "Full English translation of the document, with all chunks concatenated separated by newlines..." }
数据字段
字段描述
id(字符串):编码完整来源信息的结构化标识符。merged格式:{domain}-{source_idx}-{doc_idx},例如:01-99-00042chunked格式:{domain}-{source_idx}-{doc_idx}-{chunk_idx},例如:01-99-00042-003所有数字段都零填充到固定宽度,该宽度由数据集中的最大计数决定(100个来源 → 2位数字;每个来源最多99,999个文档 → 5位数字;每个文档最多999个块 → 3位数字)。
text_es(字符串):西班牙语源文本。- 在
chunked配置中:一个最多2,560个标记的块,通过在段落和句子边界处分割原始文档获得。 - 在
merged配置中:完整的文档文本,通过按顺序连接所有块重建,用分隔。
- 在
text_en(字符串):text_es的自动英语翻译,由Qwen3-14B通过vLLM生成。- 在
chunked配置中:单个块的翻译。 - 在
merged配置中:完整文档的翻译,与text_es类似地重建。
- 在
数据统计
标记统计(使用tiktoken cl100k_base标记器测量,在chunked配置上计算):
| 指标 | 西班牙语 (text_es) |
英语 (text_en) |
|---|---|---|
总行数 (chunked) |
683,919 | 683,919 |
总文档数 (merged) |
288,955 | 288,955 |
| 总标记数 | 1,083,614,886 (约1.08B) | 848,406,573 (约848M) |
| 平均标记数/块 | 约1,584.5 | 约1,240.4 |
两种配置共享相同的标记总数(相同内容,不同粒度)。
存储:
| 配置 | 格式 | 大小 |
|---|---|---|
chunked |
Parquet (Snappy) | 约2.6 GB |
merged |
Parquet (Snappy) | 约2.8 GB |
数据集用途
该语料库的主要目的是支持专门用于文化遗产领域(西班牙语→英语)的机器翻译模型的训练、微调和评估,应用包括:
- 为特定领域的机器翻译训练和微调大语言模型。
- 在文化遗产领域进行翻译模型的持续预训练和领域适应。
- 使用标准指标(BLEU, chrF++, COMET, COMET-Kiwi, TER, BLEURT, MetricX)评估翻译质量。
- 文档级和多段落翻译研究。
- 文化遗产集合中的跨语言信息检索。
- 在文化遗产和人文学科背景下对机器翻译系统进行基准测试。
数据集创建
源数据
文化遗产语料库是从记录西班牙文化遗产的100个来源集合中编译而成。所有来源都是公开可用的或官方可访问的。
所有数据均来自与西班牙文化遗产文档相关的公共或官方可访问来源。
自动翻译过程
所有翻译均使用以下流程自动生成:
翻译模型
| 参数 | 值 |
|---|---|
| 模型 | Qwen3-14B |
| 模型许可 | Apache 2.0 (https://www.apache.org/licenses/LICENSE-2.0) |
| 推理引擎 | vLLM |
| 硬件 | 4 × NVIDIA A100 (tensor_parallel_size=4) |
| 模式 | 非思考模式 (enable_thinking=False) |
max_model_len |
40,960 标记 |
gpu_memory_utilization |
0.89 |
生成参数
| 参数 | 值 |
|---|---|
temperature |
0.7 |
top_p |
0.8 |
top_k |
20 |
max_tokens |
4,096 |
min_p |
0.0 |
系统提示
所有翻译均使用以下系统提示(西班牙语文本直接作为用户消息传递):
You are a professional Spanish-to-English translator. Translate the following Spanish text into English. Rules:
- Output ONLY the English translation, nothing else.
- Do NOT add any commentary, explanation, or extra text.
- Do NOT add content that is not in the original text.
- Maintain academic tone and technical terminology.
- Preserve all formatting (line breaks, special characters, etc.).
- Your output must be SHORTER or EQUAL in length to the input. Never produce a longer output than the source text.
标注
该数据集不包含手动标注。内容包括:
- 来自公开文化遗产文档的西班牙语源文本。
- 由Qwen3-14B自动生成的翻译。
- 在重新索引流程中自动分配的结构化标识符 (
id),编码领域、来源、文档和块的来源信息。
个人和敏感信息
文档来源于公开可用的文化遗产文档。某些文本可能包含:
- 在官方文档中作为公众人物的文化人物、艺术家、工匠和遗产专家的姓名。
- 与文化遗产实践相关的社区和地理位置的引用。
- 博物馆、档案馆和遗产组织的机构引用。
用户责任:建议用户根据具体用例应用额外的隐私控制措施。
使用数据的注意事项
数据集的社会影响
该语料库有助于:
- 民主化获取遗产信息:为国际研究人员、机构和公众提供对西班牙文化遗产文档的跨语言访问。
- 支持遗产保护研究:为历史上代表性不足的领域的NLP研究提供大规模平行资源。
- 国家AI战略:通过ALIA项目,支持西班牙开发具有透明度标准的西班牙语基础AI模型的战略目标。
- 多语言数字人文:促进英语用户访问西班牙文化遗产学术研究和文档。
偏差讨论
来源代表性偏差:
- 该语料库反映了西班牙数字化和公开可访问的文化遗产文档的可用性。来源可能过度代表官方认可或数字化程度较高的遗产,而非较少...




