Murasaki Benchmark

github2026-02-01 更新2026-02-05 收录

下载链接：

https://github.com/soundstarrain/Murasaki-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Murasaki Benchmark提供了两个段落级别的数据集（Short/Long），用于评估LLM翻译与专业人工参考在ACGN领域的对齐程度。使用COMET（wmt22-comet-da）指标，我们在段落级别测量机器翻译与权威参考翻译之间的语义相似度。

The Murasaki Benchmark provides two paragraph-level datasets (Short/Long) for evaluating the alignment between machine translations generated by large language models (LLMs) and professional human reference translations in the ACGN domain. Using the COMET (wmt22-comet-da) metric, we measure the semantic similarity between machine translations and authoritative reference translations at the paragraph level.

创建时间：

2026-01-16

原始信息汇总

Murasaki Benchmark 数据集概述

数据集基本信息

数据集名称: Murasaki Benchmark
核心用途: 评估日语到中文的ACGN（动画、漫画、游戏、小说）领域翻译质量
评估级别: 段落级
评估指标: COMET (wmt22-comet-da)，用于衡量机器翻译与权威参考翻译之间的语义相似性

数据集构成

短文本数据集 (Short): 100个样本，每个样本长度为180-200字符，内容为对话、机智反驳、简短描述。
长文本数据集 (Long): 100个样本，每个样本长度为780-800字符，内容为复杂的世界观构建、情感独白。
参考译文来源: 来自知名粉丝团体和官方繁体中文发行版的人类翻译。

覆盖领域与体裁

数据集涵盖商业轻小说和“成为小说家吧”网络小说的主要体裁，包括：

异世界转生
恋爱喜剧
奇幻
科幻
日常
悬疑
战争/政治

评估方法与协议

评估模型: 对34个最先进的商业和主流开源大语言模型进行了评估。
标准化参数: 温度设置为1.0，使用统一的提示词以确保结果可复现和可比较。
数据后处理: 在评估前对所有模型输出进行严格的异常检测，包括空输出检查、长度比例检查和安全拒绝过滤，以确保评分的公平性。
已知问题: 部分模型（如Qwen3-8B、Grok-4.1系列、DeepSeek-V3.1、Qwen3-32B）在生成结构或内容上存在显著问题，导致大量样本在数据清洗过程中被过滤，其最终分数基于少量有效样本计算，可能无法代表其真实性能。

主要结果（排行榜摘要）

长文本排行榜 (主要): 排名前三的模型是murasaki-8b-v0.1 (0.8778)、gemini-2.5-flash (0.8767) 和 gemini-3-flash-preview (0.8765)。
短文本排行榜: 排名前三的模型是Sakura-qwen-2.5-14B (0.8282)、murasaki-8b-v0.1 (0.8269) 和 gemini-3-flash-preview (0.8262)。
完整结果文件: https://github.com/soundstarrain/murasaki-benchmark/blob/main/results/final_comet_scores.jsonl

数据质量报告

提供了所有评估模型在短文本和长文本上的有效样本数与总样本数之比（有效率）。部分模型的有效率达到100%，而部分模型的有效率较低。

使用与获取

项目结构: 包含数据、评估流水线、示例脚本、结果和文档目录。
快速开始: 提供了通过克隆仓库、安装依赖并运行示例脚本来进行本地模型或API评估的步骤。
许可证: 项目采用GPL-3.0许可证。数据集仅用于研究目的，原小说和翻译的版权归其各自所有者所有。

引用

如果使用此基准测试，请引用相关研究。

搜集汇总

数据集介绍

构建方式

在动漫、漫画、游戏和轻小说（ACGN）领域，日译中翻译的质量评估长期缺乏标准化基准。Murasaki Benchmark的构建过程体现了严谨的学术方法，其核心在于创建段落级别的双语平行语料。数据集通过动态规划算法和BGE-M3嵌入模型，将日文原版电子书与来自资深爱好者团体或官方繁体中文版的权威译文进行精确对齐，确保源文本与参考译文在语义上高度匹配。随后，研究团队对高置信度的对齐结果进行分层抽样，最终形成了包含短文本（180-200字符）和长文本（780-800字符）各100个样本的平衡数据集，全面覆盖了异世界、浪漫喜剧、奇幻等多种主流ACGN体裁。

特点

该数据集最显著的特征在于其评估的深度与广度。它并非停留在句子层面，而是采用段落级别的评估框架，能够更有效地检验大语言模型在处理复杂叙事结构、文化负载词和连贯语境时的翻译能力。数据集提供的参考译文具有高度的权威性，源自成熟的翻译社群或官方发布，为机器翻译输出提供了可靠的黄金标准。在评估方法上，数据集摒弃了传统的基于表面形式的度量，转而采用先进的神经评价指标COMET（wmt22-comet-da），直接衡量机器译文与参考译文在深层语义上的对齐程度，从而更贴近人类对翻译质量的感知。

使用方法

对于希望使用该数据集的研究者或开发者，其评估流程设计得清晰且可复现。用户首先需克隆项目仓库并安装指定的Python依赖环境。评估过程支持两种主要模式：一是通过Ollama等工具在本地部署模型进行测试；二是配置环境变量后，调用各大商业或开源大语言模型的API接口。在运行评估脚本时，系统会采用统一的系统提示词和固定的温度参数（temperature=1.0），以确保所有模型在公平一致的条件下生成译文。生成的译文会经过严格的数据后处理流程，自动过滤空输出、异常长度比及安全拒绝响应，最后通过COMET评分器计算出最终的语义相似度得分，结果可直接用于模型间的横向比较与性能分析。

背景与挑战

背景概述

在跨语言自然语言处理领域，针对特定垂直领域的机器翻译质量评估一直是研究热点。Murasaki Benchmark作为一项专注于日本至中文ACGN（动画、漫画、游戏、小说）领域翻译质量评估的综合性基准，由Murasaki团队于2026年创建。该数据集旨在解决传统通用翻译基准在捕捉ACGN领域特有语言风格、文化负载词及叙事结构方面的不足，通过提供段落级短文本与长文本双语语料，并采用权威人工翻译作为参考标准，为大规模语言模型的领域适配性提供了精准的评估框架。其引入的COMET语义相似度度量方法，推动了领域专用翻译评估从表面形式匹配向深层语义对齐的范式转变，对促进文化内容的高质量跨语言传播具有显著影响力。

当前挑战

该数据集致力于解决ACGN领域日译中任务的核心挑战，即如何准确评估模型在处理领域特有术语、口语化表达、文化隐喻及复杂叙事逻辑时的翻译忠实度与流畅性。构建过程中的挑战主要体现在数据采集与对齐的复杂性上：需要从官方EPUB日文原著与分散的粉丝翻译或正体中文官方译本之间进行高置信度的段落级对齐，此过程涉及复杂的动态规划与嵌入模型筛选。同时，确保数据在多种ACGN子类型（如异世界、浪漫喜剧、科幻等）间的代表性平衡，以及设计能够公平比较不同模型生成质量的标准化评估协议与异常输出过滤机制，均是构建过程中需要克服的关键难题。

常用场景

经典使用场景

在跨语言动漫游戏小说（ACGN）内容本地化领域，Murasaki Benchmark为评估日译中翻译质量提供了权威的标准化测试平台。该数据集通过构建短文本与长文本两个段落级评测集，覆盖对话片段、世界观描述、情感独白等典型场景，使研究者能够系统性地衡量大语言模型在专业领域翻译中的语义保真度与风格适应性。其采用的COMET（wmt22-comet-da）自动评估指标，通过神经网络计算机器译文与人工参考译文之间的语义相似度，为模型性能提供了可量化的客观比较基准。

实际应用

在实际应用层面，该数据集为ACGN内容产业提供了关键的技术支撑工具。轻小说出版社与漫画平台可依据评测结果筛选适配的翻译模型，优化本地化流程效率；字幕组与汉化团队能够借助基准测试比较不同模型的术语一致性表现，辅助人工译后编辑；在线内容平台则可利用该数据集建立自动化质量监控机制，对用户生成翻译内容进行初步筛选。此外，游戏厂商在引进日本角色扮演游戏时，可参考长文本评测结果评估模型对复杂叙事结构的处理能力，显著降低本地化成本与周期。

衍生相关工作

围绕该数据集已衍生出多个具有影响力的研究方向。在模型架构创新方面，基于评测结果优化的Murasaki-8B与Sakura-14B等专用翻译模型相继问世，展示了领域适应训练的有效性；在评估方法拓展上，研究者开始探索结合风格一致性度量与文化适配度评估的多维度评测体系；产业应用层面则催生了基于该基准的云端翻译API服务与本地化工作流集成工具。这些衍生工作共同推动了ACGN机器翻译从通用能力测试向专业化、精细化评估范式的转变，为后续领域专用大语言模型的研发提供了重要参照系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集