DITING corpus, MetricAlign
收藏github2025-10-15 更新2025-10-16 收录
下载链接:
https://github.com/WHUNextGen/DITING
下载链接
链接失效反馈官方服务:
资源简介:
DITING corpus:从数十亿章节级中英双语段落开始,通过专家讨论将其分割和对齐为高质量句子对,涵盖成语翻译、词汇歧义、术语本地化、时态一致性、零代词翻译和文化安全六个维度,共18,745对专家策划的中英句子对。MetricAlign:第一个元评估数据集,从DITING-CORPUS的六个评估维度中均匀采样12个代表性句子,每个源句子由25个LLM翻译,涵盖开源和专有系统,包括多语言和机器翻译特定模型,共300个中英句子对,提供全面的翻译挑战覆盖。
DITING corpus: Starting from billions of chapter-level Chinese-English bilingual paragraphs, it is segmented and aligned into high-quality sentence pairs via expert discussions, covering six dimensions: idiom translation, lexical ambiguity, term localization, tense consistency, zero-pronoun translation, and cultural safety. There are 18,745 expert-curated Chinese-English sentence pairs in total. MetricAlign: The first meta-evaluation dataset, which uniformly samples 12 representative sentences from the six evaluation dimensions of the DITING-CORPUS. Each source sentence is translated by 25 LLMs, covering open-source and proprietary systems including multilingual and machine translation-specific models, resulting in 300 Chinese-English sentence pairs that provide comprehensive coverage of translation challenges.
创建时间:
2025-10-13
原始信息汇总
DITING 数据集概述
数据集简介
DITING是首个针对网络小说翻译的全面评估框架,通过多智能体推理、细粒度指标和专家对齐数据集,评估超越表面相似性的翻译质量。该框架将人类专业知识与基于LLM的评估器相结合,为评估创意和文化忠实度的网络小说翻译性能建立了新基准。
数据集构成
DITING语料库
- 数据来源:从在线平台收集的数十亿章节级中英双语段落
- 处理流程:通过与专家讨论,将章节级数据分割和对齐为高质量句子对
- 质量保证:标注者迭代审查和润色模糊或表达不佳的片段,确保翻译质量和文化准确性
- 标注团队:包括两名具有五年以上网络小说翻译经验的专业译员和一名英语专业本科生
数据维度分布
| 维度 | 数量 |
|---|---|
| 习语翻译 | 2,844 |
| 词汇歧义 | 4,576 |
| 术语本地化 | 1,836 |
| 时态一致性 | 4,982 |
| 零代词翻译 | 4,407 |
| 文化安全 | 100 |
| 总计 | 18,745 |
MetricAlign元评估数据集
- 构建方法:从DITING语料库的六个评估维度中均匀采样12个代表性句子
- 翻译模型:涵盖开源和专有系统的25个LLM进行翻译
- 评估规模:300个中英句子对
- 评估人员:由三名领域专家按照严格定义的标注协议进行评估
评估维度与标准
习语翻译
- 习语忠实度:自然使用/生硬/字面或省略
- 文化适应:本地化含义/部分适应/误导性
- 语气与风格:保持语气/轻微偏移/丢失或错误语气
词汇歧义
- 上下文解析:正确含义/近似/错误含义
- 语用适当性:自然使用/ awkward/不自然
- 信息完整性:完整/小缺口/扭曲
术语本地化
- 术语充分性:准确/可接受/不正确
- 翻译策略:适应/部分/盲目翻译
- 流畅性:流畅/小问题/破坏性
时态一致性
- 时态连贯性:一致/基本可以/断裂
- 结构一致性:清晰顺序/稍不清晰/不合逻辑
- 自然性:流畅/小缺陷/不自然
零代词翻译
- 指代恢复:全部恢复/部分/错误或缺失
- 结构完整性:完整/模糊/碎片化
- 自然性:流畅/ awkward/不自然
文化安全
- 内容合规性:安全/边界/冒犯性
- 价值对齐:积极/小问题/有偏见
- 敏感信息处理:适当/部分/不安全
模型评估
推理框架
- 本地模型:使用VLLM框架(Seed-X-PPO-7B、Seed-X-Inst-7B、GemmaX2-28-9B)和Ollama
- API模型:按照官方文档进行评估
引用信息
bibtex @misc{zhang2025ditingmultiagentevaluationframework, title={DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation}, author={Enze Zhang and Jiaying Wang and Mengxi Xiao and Jifei Liu and Ziyan Kuang and Rui Dong and Eric Dong and Sophia Ananiadou and Min Peng and Qianqian Xie}, year={2025}, eprint={2510.09116}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.09116}, }
搜集汇总
数据集介绍

构建方式
在网文翻译研究领域,DITING语料库的构建采用了系统化的数据精炼流程。从数十亿章节级中英双语语料出发,研究团队通过专家讨论将数据分割并对齐为高质量句子对,这种从章节到句子的转换既降低了标注复杂度又保持了上下文完整性。标注团队由两名拥有五年以上网文翻译经验的专业译员和一名英语专业本科生组成,通过迭代式审阅流程对模糊或表达不佳的段落进行反复打磨,最终形成涵盖习语翻译、词汇歧义、术语本地化、时态一致性、零指代翻译和文化安全六大维度的18,745对专家级标注数据。
特点
该数据集在网文翻译评估领域展现出多维度的专业特性。其核心价值在于覆盖了翻译质量评估的六个关键维度:习语翻译考察文化负载词的转换能力,词汇歧义关注多义词的语境解析,术语本地化检验专业词汇的适应程度,时态一致性评估时间表达的连贯性,零指代翻译测试隐含成分的显化处理,文化安全则确保内容符合目标语文化规范。特别构建的MetricAlign元评估数据集包含300个中英句对,每个源句由25个大语言模型生成译文,并由三位领域专家按照18项细粒度标准进行系统评估,为翻译质量评估提供了全面而深入的视角。
使用方法
针对网文翻译模型的系统性评估,该数据集提供了标准化的使用流程。研究者可通过多智能体评估和单智能体基线两种模式开展工作,前者运行Agent-ans.py脚本并指定文件路径前缀,后者执行single_baseline.py程序。在使用前需配置API密钥和查询路径,本地模型推理依托VLLM框架和Ollama工具链,API模型则遵循官方文档规范。评估体系采用专家定义的标注协议,每个翻译输出从特定维度和通用维度进行双重考量,最终形成对模型在文化适应性、语言流畅度和内容安全性等方面的综合评判。
背景与挑战
背景概述
DITING语料库与MetricAlign数据集由武汉大学等研究机构于2025年推出,标志着网络小说翻译评估领域的重大突破。该数据集聚焦于解决文学翻译中文化适应性与语言创造性的核心难题,通过整合专业译者经验与多智能体评估框架,构建了覆盖习语翻译、词汇歧义、术语本地化等六维度的精细标注体系。其18,745对中英平行句对不仅填补了传统翻译数据在文化维度上的空白,更为跨语言生成模型的伦理对齐研究提供了关键基础设施。
当前挑战
在领域问题层面,网络小说翻译需应对文化负载词的本土化重构与零代词隐式指代解析等语言学挑战,同时确保时序连贯性与价值导向安全。数据构建过程中,从数十亿章节级语料中提炼高质量句对面临标注一致性难题,需通过多轮专家迭代校准解决语义模糊问题。MetricAlign作为元评估数据集,其设计需平衡25种大语言模型的输出覆盖度与专家标注成本,在保持文化敏感性评估的同时实现评分标准的可复现性。
常用场景
经典使用场景
在机器翻译研究领域,DITING语料库作为首个专门针对网络小说翻译的评估框架,其经典应用体现在系统评测多语言模型的跨文化转换能力。该数据集通过精细划分的六大维度——成语翻译、词汇歧义、术语本地化、时态一致性、零代词翻译及文化安全性,为研究者提供了全面评估翻译模型在复杂文学语境下表现的标准基准。尤其在处理网络小说特有的文化负载词和叙事风格时,该数据集能有效检验模型对源语言文化内涵的传递质量与目标语言表达的自然度。
解决学术问题
该数据集显著解决了机器翻译领域长期存在的评估维度单一化问题。传统自动评价指标如BLEU往往局限于表面词汇匹配,而DITING通过融合专家标注与多智能体评估机制,实现了对翻译质量的多维度量化分析。其构建的MetricAlign元评估数据集进一步验证了自动指标与人类评判的一致性,为建立更可靠的翻译质量评估体系提供了数据支撑,推动了翻译评估从形式对齐到语义保真的范式转变。
衍生相关工作
该数据集的发布催生了系列创新研究,其中最具代表性的是基于多智能体协同的翻译评估范式。众多后续工作借鉴其维度划分思路,开发出针对特定文学体裁的评估体系,如诗歌翻译评估框架LyricEval。此外,MetricAlign数据集启发了新一代元评估研究,促使学界重新审视自动指标与人工评价的关联性,推动了如TransCritic等融合人类反馈的混合评估方法的发展。
以上内容由遇见数据集搜集并总结生成



