Murasaki Benchmark

github2026-01-16 更新2026-01-17 收录

下载链接：

https://github.com/soundstarrain/murasaki-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Murasaki Benchmark提供了两个段落级别的数据集（Short/Long），用于评估LLM翻译在ACGN领域中与专业人工参考翻译的语义相似度。使用XCOMET指标，在段落级别测量机器翻译与权威参考翻译之间的语义相似性。

The Murasaki Benchmark provides two paragraph-level datasets (Short/Long) for evaluating the semantic similarity between LLM translations and professional human reference translations in the ACGN domain. The semantic similarity between machine translations and authoritative reference translations is measured at the paragraph level using the XCOMET metric.

创建时间：

2026-01-16

原始信息汇总

Murasaki Benchmark 数据集概述

数据集基本信息

名称：Murasaki Benchmark
核心目标：评估日语到中文的ACGN（动画、漫画、游戏、小说）领域翻译质量。
评估方式：提供两个段落级数据集（Short/Long），使用XCOMET指标衡量机器翻译与权威人工参考翻译在段落级别的语义相似度。

数据集构成

数据集数量：2个（Short数据集和Long数据集）。
样本总量：200个段落（每个数据集100个样本）。
样本长度：
- Short数据集：180-200字符。
- Long数据集：780-800字符。
内容类型：
- Short数据集：对话、机智反驳、简短描述。
- Long数据集：复杂的世界观构建、情感独白。
数据来源：官方EPUB日文原文与来自成熟粉丝团体及官方繁体中文发行版的人工翻译。
覆盖体裁：涵盖商业轻小说和“成为小说家吧”网络小说的主要体裁，包括异世界、恋爱喜剧、奇幻、科幻、日常、悬疑、战争/政治等。

评估方法与协议

评估指标：COMET（Unbabel/XCOMET-XL）。
评估参数：
- 温度（Temperature）：1.0。
- 系统提示：标准化（定义于 pipeline/config.py）。
- 特殊情况：Sakura模型使用官方推荐设置。
数据构建流程：官方日文EPUB与粉丝/官方中文翻译通过全矩阵动态规划和BGE-M3进行对齐，经过高置信度过滤和分层抽样，最终形成数据集。
评估模型：涵盖了33个最先进的商业和主流开源大语言模型（LLM）。

主要结果与排行榜

评估结果：基于XCOMET指标对33个模型在Short和Long数据集上的表现进行了排名。
领先模型（截至榜单）：
1. Gemini 3 Flash Preview（平均分：0.851）
2. Sakura-Qwen-2.5-14B（平均分：0.851）
3. GPT-5-chat-latest（平均分：0.850）
完整结果文件：results/final_comet_scores.jsonl。

项目结构与使用

项目结构：
- data/：基准数据集（Short/Long划分）。
- pipeline/：核心评估逻辑（提示工程、评分）。
- examples/：最小可运行脚本。
- results/：完整评估日志与图表。
- docs/：详细文档。
快速开始：提供通过本地模型（如Ollama）或API提供商运行评估的示例脚本。
许可证：GPL-3.0许可证。数据集仅用于研究目的，原小说及翻译的版权归其各自所有者所有。

引用

如需引用，请使用提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在日译中ACGN翻译质量评估领域，Murasaki Benchmark的构建体现了严谨的数据工程理念。该数据集从官方EPUB日文原版与粉丝翻译或官方繁体中文译本出发，通过全矩阵动态规划与BGE-M3嵌入模型进行段落级对齐，筛选出高置信度的配对样本。随后采用分层抽样策略，确保数据在长度与体裁上的代表性，最终形成包含短文本与长文本各100个样本的双重数据集，覆盖了异世界、浪漫喜剧、奇幻、科幻等多种主流ACGN体裁。

特点

Murasaki Benchmark的核心特点在于其评估的深度与广度。数据集提供了短文本与长文本两种段落级评估场景，分别针对180-200字符的对话与俏皮反驳，以及780-800字符的复杂世界观描述与情感独白，从而全面考察模型在不同语言复杂度下的翻译能力。所有参考译文均源自权威的粉丝翻译团体或官方繁体中文版本，确保了评估基准的专业性与可靠性。评估采用基于神经网络的XCOMET指标，精准度量机器翻译与参考译文之间的语义对齐程度，并在统一温度参数与标准化提示词下进行，保障了结果的可复现性与公平比较。

使用方法

为便于研究者使用该数据集进行评估，项目提供了清晰的使用路径。用户可通过克隆代码库并安装依赖项快速搭建环境。评估支持两种主要模式：对于本地部署的模型，可通过Ollama等工具加载并运行示例脚本；对于基于API的商用模型，则需配置环境变量中的密钥信息后执行相应演示代码。整个评估流程封装在项目管道中，用户可灵活调用以测试不同大语言模型在ACGN领域日译中任务上的表现，并获取与排行榜一致的标准化分数。

背景与挑战

背景概述

在跨语言自然语言处理领域，日文至中文的翻译任务长期面临专业领域适应性不足的挑战，尤其在动画、漫画、游戏、小说等ACGN领域，其文本富含文化专有项、口语化表达及特定叙事风格。Murasaki Benchmark应运而生，由Murasaki团队于2026年创建，旨在为大型语言模型的翻译质量提供一套专业评估基准。该数据集通过整合官方EPUB日文源文本与权威中文参考译文，构建了段落级别的短长双文本集，覆盖异世界、浪漫喜剧、奇幻、科幻等多种主流ACGN体裁，其核心研究问题聚焦于如何精准衡量机器翻译在专业领域内与人类专业译文的语义对齐程度，为相关模型优化与研究方向提供了重要的实证基础。

当前挑战

该数据集致力于解决ACGN领域日译中任务的核心挑战，包括处理文化负载词、口语化对话、风格化叙事等复杂语言现象的准确转换，以及评估模型在段落级别保持语义连贯性与风格一致性的能力。在构建过程中，挑战主要源于高质量双语语料的对齐与筛选，需通过动态规划与嵌入模型从海量非结构化文本中提取高置信度配对，并确保数据在体裁与长度上的平衡代表性。此外，建立公平且可复现的评估协议，如统一温度参数与提示词设计，以消除评估偏差，亦是保障基准科学性的关键环节。

常用场景

经典使用场景

在跨语言文化传播领域，特别是涉及日本动漫、漫画、游戏和轻小说（ACGN）内容的翻译研究中，Murasaki Benchmark数据集为评估大规模语言模型在日译中任务上的表现提供了标准化测试平台。该数据集通过精心构建的短文本与长文本两个子集，模拟了从日常对话到复杂叙事等多种真实翻译场景，使得研究者能够系统性地衡量模型在捕捉原文语义、风格及文化内涵方面的能力。其经典使用场景聚焦于对前沿翻译模型进行横向性能比较，为模型优化与算法改进提供了关键的数据支撑。

解决学术问题

该数据集有效解决了机器翻译研究中的一个核心难题，即如何在高语境依赖、文化负载词密集的ACGN领域内，对翻译质量进行客观、可重复的评估。传统自动评估指标往往难以准确衡量文学性文本的语义忠实度与表达流畅性，而Murasaki Benchmark通过引入权威人工参考译文，并采用基于神经网络的XCOMET度量方法，实现了对翻译输出与专业译文之间语义对齐程度的量化分析。这为突破领域适应性瓶颈、建立细粒度翻译质量评估体系提供了重要的方法论基础。

衍生相关工作

围绕Murasaki Benchmark，学术界与工业界已衍生出一系列相关研究工作。例如，基于其评估框架，研究者们进一步探索了针对ACGN特有术语、口语表达及文体风格的领域自适应微调技术。部分工作则致力于开发更高效的段落级对齐算法与多维度质量评估指标，以补充现有语义相似度测量的不足。此外，该基准也激励了面向低资源语言对或垂直领域的专用翻译数据集的构建，推动了高质量、可解释的机器翻译评估生态系统的形成与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集