mtob
收藏Hugging Face2025-07-15 更新2025-07-15 收录
下载链接:
https://huggingface.co/datasets/Groq/mtob
下载链接
链接失效反馈官方服务:
资源简介:
MTOB(从一本书的机器翻译)数据集用于评估语言模型在轻量级微调情况下进行英语到Kalamang语言以及Kalamang语言到英语的翻译能力。该数据集包含50个英语到Kalamang的问题和50个Kalamang到英语的问题,适用于评估模型在处理资源匮乏语言时的翻译性能。
创建时间:
2025-07-02
原始信息汇总
MTOB (Machine Translation from One Book) 数据集概述
基本信息
- 任务类别:
- 翻译
- 问答
- 文本生成
- 数据集名称: MTOB
- 数据规模: 小于1K
- 最后更新日期: 2025年7月9日
数据集目的
评估语言模型在以下任务中的能力:
- 英语到Kalamang(一种低资源语言)的句子翻译
- Kalamang到英语的句子翻译
数据集特点
- Kalamang是一种低资源语言,互联网上存在极少,适合评估模型在未见过的数据上的表现。
- 数据集支持长上下文评估,其中Kalamang语料库作为模型输入。
数据集构成
- 包含50个英语到Kalamang的问题
- 包含50个Kalamang到英语的问题
加密与解密
-
使用AES-CTR加密方法
-
解密密钥:
b"mtob-eval-encode" -
解密代码示例: python from Crypto.Cipher import AES from base64 import b64decode import os
key = os.getenv("MTOB_KEY").encode()
def decrypt_text_aes_ctr(nonce: str, ciphertext: str) -> str: nonce = b64decode(nonce) ct = b64decode(ciphertext) cipher = AES.new(key, AES.MODE_CTR, nonce=nonce) pt = cipher.decrypt(ct) return pt.decode("utf-8")
decrypted_text = decrypt_text_aes_ctr(nonce, ciphertext)
任务特定参数
claude-book-medium: 提供中等规模的Kalamang-English语法规则作为输入claude-book-long: 提供较大规模的Kalamang-English语法规则作为输入zero-shot: 不提供知识库作为输入
评估指标
- 使用chrF指标
- 当前实现使用NLTK句子级chrF评分器
相关资源
- 原始论文: A Benchmark for Lightweight Fine-Tuning of Language Models
- 原始MTOB论文: original MTOB paper
- 原始MTOB仓库: lukemelas/mtob
- Meta的Llama-Stack-Evals套件使用MTOB作为长上下文评估任务
搜集汇总
数据集介绍

构建方式
MTOB数据集由G. Tanzer等学者构建,旨在评估语言模型在英语与Kalamang语双向翻译任务中的表现。Kalamang作为一种使用人数不足200人的极低资源语言,其网络数据痕迹极其稀少,这为研究模型在未见训练数据上的表现提供了理想条件。数据集构建过程中,研究者采用AES-CTR加密技术对语料进行保护,并通过精选50组英译卡和50组卡译英的平行句对,确保数据质量与安全性。
特点
该数据集最显著的特征在于其聚焦极低资源语言的翻译挑战。Kalamang语料的稀缺性使得该任务能有效检验模型的零样本学习与小样本微调能力。数据集提供三种任务模式:包含中等规模语法规则的claude-book-medium、扩展语法库的claude-book-long以及零样本设定的zero-shot。此外,Meta的Llama-Stack-Evals框架将其作为长上下文评估基准,突显其在多模态评估体系中的独特价值。
使用方法
使用该数据集需通过特定密钥解密,密钥'b"mtob-eval-encode"'可通过环境变量配置。解密过程调用AES-CTR算法,配套提供Python解密函数模板。评估时建议采用NLTK的chrF指标进行句子级评分,系统提示词模板已预设标准化输出格式要求。用户可选择不同语法知识库规模的任务变体,通过HuggingFace平台获取加密的参考文本文件,实现与原始论文实验条件的可比性。
背景与挑战
背景概述
MTOB(Machine Translation from One Book)数据集由G. Tanzer等人于2024年创建,旨在评估语言模型在英语与Kalamang(一种低资源语言)之间进行双向翻译的能力。Kalamang作为一种使用者不足200人的濒危语言,其数字足迹极为有限,这使得该数据集成为研究低资源语言机器翻译的宝贵资源。该数据集的设计初衷是检验模型在未经训练数据上的迁移学习能力,尤其关注上下文学习和轻量级微调的效果。相关研究成果发表于ICLR 2024会议,并被Meta公司的Llama-Stack-Evals套件采纳为长上下文评估任务,彰显了其在跨语言模型评估领域的重要价值。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,极低资源语言(Kalamang)的语法结构稀缺性和语义复杂性导致传统神经机器翻译方法难以捕捉其语言特征;数据构建过程中,研究者需克服语料采集困境,通过加密传输(AES-CTR算法)解决濒危语言数据泄露风险,同时需平衡语法规则书(Claude-book)的引入与零样本设置的对比实验设计。技术实现上,确保chrF评分器与原始实现的一致性,以及处理加密数据解密与数据集重构(如添加子任务列和划分训练/测试集)等工程问题,均为亟待解决的挑战。
常用场景
经典使用场景
在低资源语言翻译研究领域,MTOB数据集被广泛用于评估语言模型在英语与Kalamang语双向翻译任务中的表现。该数据集通过提供精心构建的平行语料,支持研究者测试模型在零样本、少量样本以及长上下文学习等不同设置下的跨语言迁移能力,尤其在探索语言模型对极低资源语言的泛化性能方面具有独特价值。
实际应用
该数据集已被Meta等机构整合至Llama-Stack-Evals评估体系,用于测试大语言模型的长上下文处理能力。在实际应用中,基于MTOB开发的翻译系统可辅助人类学家进行Kalamang语料数字化存档,其加密数据架构也为医疗、法律等敏感领域的低资源语言处理提供了隐私保护范式。
衍生相关工作
围绕MTOB衍生的经典研究包括Meta团队在Llama 4模型中实施的长上下文评估框架,以及Tanzer等人提出的轻量化微调基准方法。后续工作扩展了原始数据集的语法规则知识库,开发出claude-book-medium/long等变体,这些成果均发表在ICLR等顶级会议,推动了低资源NLP领域的评估标准化进程。
以上内容由遇见数据集搜集并总结生成



