SciELO-GL
收藏Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://huggingface.co/datasets/proxectonos/SciELO-GL
下载链接
链接失效反馈官方服务:
资源简介:
**SciELO语料库**是一个大规模平行资源,由从*科学电子图书馆在线(SciELO)*提取的完整科学文章组成。它提供了西班牙语、葡萄牙语和英语之间的高质量句子对,涵盖多个学术领域。为了解决该领域公开可用的加利西亚语数据的缺乏,葡萄牙语部分通过使用文本[pipeline](https://github.com/proxectonos/pipeline)和[Apertium](https://github.com/apertium)中的工具进行转写和本地化,转换为加利西亚语。最终资源是一个包含约30万对齐句子的**平行科学语料库**,适用于**西班牙语-加利西亚语**和**英语-加利西亚语**对。该语料库特别适用于训练机器翻译模型,因为它提供了专业术语密度和复杂的语法结构,反映了拉丁美洲和伊比利亚地区真实的科学和技术语言使用情况。
创建时间:
2025-12-15
原始信息汇总
数据集概述:西班牙语-加利西亚语 / 英语-加利西亚语科学语料库 (SciELO)
数据集简介
该数据集源自 SciELO 语料库,是一个大规模平行资源,由从 Scientific Electronic Library Online (SciELO) 中提取的完整科学文章构成。原始语料库提供西班牙语、葡萄牙语和英语之间的高质量句子对。为弥补加利西亚语在该领域公开数据的不足,通过转写和本地化工具将葡萄牙语部分适配为加利西亚语,最终形成了一个包含约 300,000 条对齐句子的平行科学语料库,支持 西班牙语-加利西亚语 和 英语-加利西亚语 对。
数据集详情
- 许可协议: cc-by-4.0
- 任务类别: 翻译
- 涉及语言: 加利西亚语 (gl)、西班牙语 (es)、英语 (en)
- 规模类别: 100K<n<1M
- 语言对: 西班牙语-加利西亚语、英语-加利西亚语
- 数据格式: 平行文本片段(对齐句子)
- 领域: 科学文章(多学科)
- 数据量: 约 300,000 行
数据集构建方法
- Apertium pt-gl: 使用符号规则将原始葡萄牙语句子翻译成加利西亚语。
- 转写与本地化: 使用 port2gal 工具处理词汇表外单词的残留标签,将其转写为西班牙语正字法或本地化为更常见的加利西亚语单词。
- 编码错误处理: 扫描全文以处理编码错误,确保其为 utf-8 编码。
- 去重: 对过滤后的数据集进行去重,以移除冗余的句子对。
- 非语言内容过滤: 使用 pyplexity 工具过滤可能包含非语言内容的文本。
- 标准化: 对最终的加利西亚语文本进行(语言学)标准化,以符合加利西亚语的自治标准。
支持的任务与基准
- 机器翻译 (MT): 在科学领域训练和评估加利西亚语的机器翻译系统。
- 术语提取: 为科学和技术领域构建专业的双语术语表。
- 跨语言 NLP: 支持学术文本中的多语言嵌入和语义对齐。
- 评估: 在专业科学语料库中对翻译质量进行基准测试。
使用场景
- 在专业科学语境下训练加利西亚语的机器翻译模型。
- 创建学术术语的双语词典和术语表。
- 支持对代表性不足语言的跨语言迁移研究。
- 评估科学和技术领域的翻译系统。
局限性
- 领域特定性: 专注于科学文本,可能无法泛化到日常语言。
- 自动适配问题: 自动适配的加利西亚语片段可能包含转写或翻译的瑕疵。
资金来源
本工作由西班牙数字转型和公共职能部资助,资金来源于欧盟 – NextGenerationEU,属于项目 Desarrollo de Modelos ALIA 的框架内。
搜集汇总
数据集介绍

构建方式
在科学文献翻译领域,高质量平行语料的稀缺性,特别是对于加利西亚语这类资源相对匮乏的语言,构成了显著挑战。SciELO-GL数据集的构建巧妙地应对了这一难题,其核心流程始于从SciELO平台提取的西语、葡语和英语科学文献原文。针对加利西亚语数据的缺失,研究团队首先利用Apertium的符号规则将葡萄牙语片段初步翻译为加利西亚语,随后通过port2gal工具进行转写和本地化处理,以优化词汇并提升语言的地道性。整个语料经历了严格的编码校验、去重处理,并借助pyplexity过滤非语言内容,最终对加利西亚语文本进行了符合其自治标准的语言学规范化,从而生成了约30万句高质量对齐的平行语料。
特点
该数据集最突出的特征在于其高度的领域专业性与语言独特性。作为专注于科学文献的平行语料库,它涵盖了多学科内容,蕴含密集的专业术语和复杂的语法结构,真实反映了拉丁美洲及伊比利亚半岛学术文献的语言风貌。其核心价值在于首次大规模提供了西班牙语-加利西亚语及英语-加利西亚语的科学文本对齐资源,有效填补了加利西亚语在学术机器翻译领域的数据空白。经过系统化转写与规范化处理的文本,在保持科学语言严谨性的同时,也确保了加利西亚语变体符合其自治标准,为模型训练提供了兼具专业性与规范性的语言素材。
使用方法
在应用层面,该数据集主要服务于机器翻译模型的训练与评估,尤其适用于科学领域的专业翻译任务。研究人员可直接使用其对齐的句子对,构建针对西班牙语-加利西亚语或英语-加利西亚语方向的神经机器翻译系统。此外,该语料库也支持跨语言自然语言处理研究,例如用于训练多语言词向量模型、进行术语自动抽取以构建双语学术词典,或作为基准测试集来评估专业领域翻译系统的性能。鉴于其领域特异性,建议用户将其与通用领域语料结合使用,以提升翻译模型在不同语境下的泛化能力。
背景与挑战
背景概述
在机器翻译与低资源语言处理领域,高质量平行语料的稀缺长期制约着相关技术的发展。SciELO-GL数据集应运而生,由OPUS项目团队与Galician语言技术社区于近年联合构建,旨在填补Galician语在科学文献翻译资源上的空白。该数据集源自SciELO(科学在线图书馆)的多语学术文章,通过符号规则转换与本地化工具将葡萄牙语内容适配为Galician语,最终形成约30万句对的西班牙语-加利西亚语及英语-加利西亚语平行语料。其核心研究问题聚焦于如何为语言技术资源匮乏的Galician语构建领域专用的翻译基准,从而推动科学文献的跨语言传播与区域语言在学术场景中的数字化生存。该资源不仅为Galician语的机器翻译模型提供了密集的专业术语与复杂句法实例,亦为伊比利亚半岛及拉丁美洲的多语学术交流奠定了数据基础。
当前挑战
SciELO-GL数据集所应对的领域挑战在于科学文献机器翻译中专业术语的准确对齐与低资源语言的语言表征学习。科学文本蕴含高度密集的领域特定词汇与复杂语法结构,要求翻译模型在缺乏大规模监督数据的情况下实现语义精确映射,这对Galician语这类资源受限语言尤为严峻。在构建过程中,研究团队面临多重技术挑战:首先,原始葡萄牙语料需通过Apertium等符号规则系统转化为Galician语,此过程易产生词汇覆盖不足与语法结构偏差;其次,针对未登录词需采用音译与本地化策略,可能引入正字法不一致或文化适配误差;此外,语料清洗需克服编码异常、非语言内容过滤以及文本去重等数据噪声问题,最终还需进行语言标准化处理以确保符合Galician语自治标准。这些挑战共同凸显了低资源语言在领域自适应过程中数据质量与语言规范间的平衡难题。
常用场景
经典使用场景
在机器翻译领域,SciELO-GL数据集为西班牙语-加利西亚语和英语-加利西亚语科学文本的翻译任务提供了关键资源。其经典使用场景在于训练和评估专门针对科学文献的神经机器翻译模型,这些模型能够处理复杂学术术语和句法结构,从而在跨语言科学交流中实现高质量翻译。该数据集通过提供大规模对齐的句子对,支持研究者构建适应科学领域语言特点的翻译系统,有效弥补了加利西亚语在学术资源上的空白。
实际应用
在实际应用中,SciELO-GL数据集被广泛用于开发科学文献翻译工具,支持加利西亚语地区的学术出版和知识传播。例如,研究机构可以利用该数据集训练定制化翻译系统,自动将国际科学论文翻译为加利西亚语,促进本地科研人员获取前沿知识。同时,它也为构建双语科学术语词典和跨语言信息检索系统提供了数据支撑,增强了科学信息在多元语言环境中的可及性和共享效率。
衍生相关工作
基于SciELO-GL数据集,衍生了一系列经典研究工作,主要集中在低资源机器翻译和跨语言语义对齐领域。例如,研究者利用该语料库开发了针对加利西亚语科学文本的神经翻译模型,并在专业评估基准中验证了其有效性。此外,该数据集还支持了多语言词嵌入和术语提取技术的创新,推动了学术文本的自动化处理和分析,为后续在类似低资源语言科学语料库构建和应用提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



