five

AG-MG Parallel Corpus

收藏
arXiv2026-05-18 更新2026-05-20 收录
下载链接:
https://github.com/thompsonb/vecalign
下载链接
链接失效反馈
官方服务:
资源简介:
AG-MG平行语料库是由雅典研究与创新中心等机构构建的古希腊语至现代希腊语机器翻译专用数据集,包含132,481个高质量句子对,涵盖文学、历史与圣经文本,总计约231万古希语词符与306万现希语词符。该数据集通过融合网络爬取的摘录级数据,采用基于LaBSE嵌入的VecAlign多阶段对齐流程,并引入Gemini 2.5 Flash进行LLM辅助错误修正,实现了约95%的校准准确率。其核心应用在于突破低资源语言对的翻译瓶颈,为古希腊语数字化研究、跨时代语言建模及人文计算提供关键基础资源。
提供机构:
雅典国立卡波迪斯特里亚大学·信息与电信系; 雅典研究与创新中心·语言与语音处理研究所
创建时间:
2026-05-18
原始信息汇总

数据集概述:Vecalign

核心功能

Vecalign 是一个句子对齐算法,具有以下特点:

  • 高精度:能准确对齐平行语料中的句子。
  • 高效性:即使对于超长文档也能快速处理。
  • 多语言支持:结合 LASER 工具,可覆盖约 100 种语言(即约 100² 个语言对),无需依赖机器翻译系统或词典。

技术原理

运行环境与构建

  • 依赖:Python 3.6+、NumPy、Cython。
  • 构建方式:通过 conda 创建环境并安装依赖包(如 cythonnumpymcerp)。
  • 注意事项:Vecalign 包含 Cython 代码,但通过 pyximport 自动编译,无需手动构建。

使用方法

  1. 基本运行: bash ./vecalign.py --alignment_max_size 8 --src bleualign_data/dev.de --tgt bleualign_data/dev.fr --src_embed bleualign_data/overlaps.de bleualign_data/overlaps.de.emb
    --tgt_embed bleualign_data/overlaps.fr bleualign_data/overlaps.fr.emb

    • 输出格式:[source_index]:[target_index]:alignment_cost
    • 对齐成本包含归一化,但不含多句子惩罚项;插入/删除时成本设为 0。
    • 结果因归一化的随机性可能略有差异。
  2. 带评分测试

    • 使用 -g 参数指定参考对齐(gold alignment),-s-t-g 可接受多个文件。

    • 示例(Bleualign 测试集): bash ./vecalign.py --alignment_max_size 8 --src bleualign_data/test*.de --tgt bleualign_data/test*.fr --gold bleualign_data/test*.defr
      --src_embed bleualign_data/overlaps.de bleualign_data/overlaps.de.emb
      --tgt_embed bleualign_data/overlaps.fr bleualign_data/overlaps.fr.emb > /dev/null

    • 预期结果(接近论文):


      | | Strict | Lax | | Precision | 0.899 | 0.985 | | Recall | 0.904 | 0.987 | | F1 | 0.902 | 0.986 |

  3. 嵌入自定义文档

    • 使用 overlap.py 生成句子组合文件(支持多句连续拼接)。

    • 示例: bash ./overlap.py -i bleualign_data/dev.fr bleualign_data/test*.fr -o bleualign_data/overlaps.fr -n 10 ./overlap.py -i bleualign_data/dev.de bleualign_data/test*.de -o bleualign_data/overlaps.de -n 10

    • 推荐使用 LASER 工具进行句子嵌入,生成二进制浮点文件(float32 格式)。

    • 注意:LASER 不会覆盖已有嵌入文件,必要时需手动删除旧文件。

扩展功能:文档对齐

  • 方法:使用 Vecalign 对文档对齐候选进行重新评分,结合保留句子顺序信息的文档嵌入方法。
  • 提供文档嵌入示例代码:standalone_document_embedding_demo.py

数据与许可

引用论文

若使用 Vecalign,请引用以下论文:

  1. 句子对齐论文(EMNLP-IJCNLP 2019):Thompson & Koehn, 2019
  2. 文档对齐论文(EMNLP 2020):Thompson & Koehn, 2020
搜集汇总
数据集介绍
main_image_url
构建方式
AG-MG Parallel Corpus的构建始于从数字化选集、综合数字图书馆及圣经文本资源中爬取文学、历史与宗教典籍的摘录级数据。随后采用基于Stanza库的深度清洗与句子分割,并对非圣经来源运用VecAlign工具,结合经人工对齐的1,000个句子对微调后的LaBSE嵌入进行初始句子对齐。为保障极致对齐质量,进一步引入Gemini 2.5 Flash作为大语言模型进行误对齐检测与校正,最终经过去重及多译本变体保留策略,形成包含132,481个句子对的最终语料库。
特点
该语料库是目前规模最大的古希腊语到现代希腊语句级平行语料,覆盖阿提卡、伊奥尼亚、多利亚、荷马史诗及希腊化共通语等多样方言与历史时期,并深度标注作者、标题、译者、方言、体裁及时代等元数据。其独特之处在于融合了领域自适应嵌入与大语言模型精炼的混合对齐流水线,经人工抽样评估对齐准确率高达95%,且训练集中保留了同一古希腊语句子的不同现代希腊语译文,丰富了翻译风格多样性。
使用方法
语料库已按128,231/2,000/2,000/250比例划分为训练集、开发集、测试集及包含稀有方言的应力测试集,可直接用于微调序列到序列的神经机器翻译模型(如NLLB、M2M100)与希腊语大语言模型(如Llama-Krikri-8B)。使用时需注意对NMT模型进行分词器词汇扩展及智能嵌入初始化以处理古希腊语变音符号,而大语言模型凭借其字节级分词机制可原生支持。该资源旨在推动低资源语言对的机器翻译研究,但因版权限制不直接发布语料,仅提供微调后的模型权重。
背景与挑战
背景概述
古希腊语到现代希腊语的机器翻译是一项极具挑战性的低资源任务,其瓶颈在于缺乏大规模、高质量的双语句级平行语料库。为填补这一空白,雅典国家与卡波季斯特里亚大学及雅典信息科学研究所的研究人员于2025年共同构建了AG-MG Parallel Corpus。该语料库汇集了来自文学、历史和圣经文本的132,481个句级对齐对,并附有作者、方言、体裁等丰富元数据。研究团队提出了一种创新的混合对齐流水线,首先在人工对齐子集上微调LaBSE嵌入模型,继而采用VecAlign进行初始对齐,最后借助Gemini 2.5 Flash大语言模型进行错误检测与修正,最终实现了约95%的对齐准确率。这一成果系统地解决了古希腊语到现代希腊语翻译的资源匮乏问题,为希腊语自然语言处理与数字人文研究提供了不可或缺的基础设施,并首次建立了涵盖NMT模型与希腊语大语言模型的全面基准。
当前挑战
该语料库主要面临两大挑战。在领域问题层面,古希腊语多方言、多历史时期、多体裁的复杂语言特征,与现代希腊语之间存在显著的形态句法差异,加之标注资源极度稀缺,使得传统机器翻译方法难以有效泛化。现有神经机器模型在处理包含多种变音符号的声调字符时存在严重的词汇外问题,导致完全无法识别输入。在语料库构建过程中,数字化资源多存在于摘录或段落层级,且夹杂大量编辑注释、标记等噪声,句子分割与对齐极为困难。为此,研究团队设计了域自适应嵌入模型与LLM精校相结合的多阶段流水线,并通过词汇扩展与智能初始化策略解决了字符盲区问题,最终实现了高达+10.3 BLEU点的性能提升,验证了高质量语料在低资源场景下的决定性作用。
常用场景
经典使用场景
在古典语言与现代语言之间的低资源机器翻译任务中,AG-MG Parallel Corpus作为首个大规模、高质量的古希腊语至现代希腊语句级平行语料库,被广泛用于训练和评估多种神经机器翻译模型。该数据集涵盖文学、历史、圣经等多类文本,包含132,481个对齐句对,并附有作者、方言、体裁、时代等丰富元数据,为模型在形态复杂的古语与现代自然语言之间的转换提供了基础语料支撑。
解决学术问题
该数据集填补了古希腊语至现代希腊语机器翻译领域长期面临的平行语料匮乏这一关键空白。此前,该语言对由于缺乏大规模、高质量、句级对齐的双语资源,导致神经机器翻译与大型语言模型的研究进展迟缓。该语料库的发布有效推动了对低资源古典语言翻译算法的探索,并首次为NLLB、M2M100及希腊语大模型Llama-Krikri等先进模型提供了系统化的基准评估框架。
衍生相关工作
基于AG-MG Parallel Corpus,研究者衍生出一系列具有重要意义的工作。论文提出了结合领域微调LaBSE嵌入与VecAlign的混合对齐流水线,并引入Gemini 2.5 Flash进行LLM驱动的对齐纠错,开创了古典语言对齐的新范式。在此语料库的驱动下,后续工作还探索了全参数微调、LoRA与QLoRA等参数高效微调策略在NMT与LLM模型上的适配效果,并首次针对稀有的伊奥尼亚、多利亚与荷马方言构建了压力测试集,推动了古典语言模型泛化能力的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作