CSM-MTBench
收藏arXiv2026-01-30 更新2026-02-05 收录
下载链接:
https://github.com/KYuuto1006/CSM-MTBench
下载链接
链接失效反馈官方服务:
资源简介:
CSM-MTBench是由东京大学与小红书公司联合构建的中文社交媒体机器翻译基准数据集,包含10,000条高质量平行语料,涵盖中文与西班牙语、法语、日语、韩语及俄语五种语言方向。数据集分为Fun Posts和Social Snippets两个子集:前者收录富含网络流行语及新词的长篇用户帖子,平均长度41.1字符;后者聚焦具有情感张力的短评片段,平均长度10.2字符。数据源自真实社交平台,经双语专家人工翻译及严格过滤,特别标注了俚语翻译候选集和风格情感标签。该数据集致力于解决传统机器翻译在非正式文本中语义保真度与风格迁移的评估难题,为社交媒体的跨语言传播研究提供标准化测试平台。
CSM-MTBench is a benchmark dataset for Chinese social media machine translation, jointly constructed by The University of Tokyo and Xiaohongshu. It contains 10,000 high-quality parallel corpora covering five language pairs: Chinese to Spanish, French, Japanese, Korean and Russian. The dataset is divided into two subsets: Fun Posts and Social Snippets. The former consists of long-form user posts rich in internet slang and neologisms, with an average length of 41.1 characters; the latter focuses on short comment excerpts with emotional tension, averaging 10.2 characters in length. All data originates from real social platforms, has undergone manual translation by bilingual experts and strict filtering, and is specially annotated with slang translation candidate sets and style-emotion labels. This dataset aims to address the evaluation challenges of traditional machine translation in terms of semantic fidelity and style transfer for informal texts, providing a standardized testbed for cross-language communication research on social media.
提供机构:
东京大学; 小红书公司
创建时间:
2026-01-30
原始信息汇总
CSM-MTBench 数据集概述
数据集简介
该数据集为论文《Benchmarking Machine Translation on Chinese Social Media Texts》提供支持数据,用于评测中文社交媒体文本的机器翻译。
数据内容与结构
数据按语言方向组织在相应的文件夹中。包含两种主要数据类型:
1. Fun Posts(趣味帖子)
- 描述:较长、内容丰富的用户帖子,通常描述事件、经历或个人观察,常包含俚语和新词。
- 数据结构示例(中文到日文):
source:中文源句子。slang:句子中的俚语或新词。slang_trans:该俚语或新词的黄金标准翻译。slang_candidates:目标语言中对该俚语的其他合理表达列表。translation:人工标注的黄金标准完整翻译。
2. Social Snippets(社交片段)
- 描述:简短、高度情绪化或反应性的用户评论,通常具有独特的语气和风格特征。
- 数据结构示例(中文到日文):
source:中文源句子。translation:人工标注的黄金标准翻译。
评估方法
- 当前评估方法的实现请参考原论文(涉及XCOMET、SSR、ES、GEMBA)。
- 评估代码即将发布(目前正处于公司内部审核阶段)。
搜集汇总
数据集介绍

构建方式
在社交媒体文本机器翻译领域,现有基准多聚焦于正式语料,难以捕捉中文社交平台中迅速演变的俚语、新词及高度风格化表达。为弥补这一空白,CSM-MTBench通过系统化流程构建:首先从真实中文社交平台采集用户生成内容,经过严格过滤去除敏感信息,随后由精通双语且熟悉平台文化的专家人工翻译为西班牙语、法语、日语、韩语及俄语。数据集进一步划分为两个互补子集:Fun Posts收录较长、内容丰富的用户帖子,侧重俚语与新词;Social Snippets则聚焦简短、情感驱动的用户评论,强调语气与风格的保留。这一构建方式确保了数据的高质量与真实性,为评估机器翻译系统在非正式社交文本上的表现提供了可靠基础。
特点
CSM-MTBench的核心特点在于其针对中文社交媒体语言复杂性的深度刻画。数据集涵盖五个翻译方向,包含逾万个样本,其Fun Posts子集平均长度达41.1个汉字,富含新词与俚语,考验模型对语义细微差别的把握;Social Snippets子集平均仅10.1个字符,高度依赖情感与风格传递,挑战模型对非标准表达的还原能力。此外,数据集配备了专门设计的评估方案:针对Fun Posts提出俚语成功率指标,结合模糊匹配与候选词典量化新词翻译准确性;针对Social Snippets则融合风格嵌入、情感嵌入及大语言模型评判,综合衡量语气与风格的保存度。这些特点使该数据集成为衡量机器翻译系统处理真实世界中文社交文本能力的严谨测试平台。
使用方法
使用CSM-MTBench进行机器翻译评估时,需依据其子集特性采用相应策略。对于Fun Posts,评估应兼顾整体翻译质量与俚语翻译成功率:首先利用XCOMET等标准指标衡量语义忠实度与流畅性,同时基于预构建的俚语候选词典,通过模糊匹配检测模型输出中是否包含可接受的俚语译法,计算俚语成功率。对于Social Snippets,评估重点转向风格与情感的保存:可通过结合风格嵌入、情感嵌入及情感嵌入的余弦相似度计算综合得分,亦可用大语言模型作为评判者,直接评估翻译结果在语气与风格上与源文本的一致性。用户还可通过针对性提示策略探索性能提升,如在翻译Fun Posts时明确提醒模型注意俚语存在,以激发其处理非标准表达的能力。
背景与挑战
背景概述
随着社交媒体文本的普及,其中快速演变的俚语、新词和高度风格化的表达对机器翻译评测构成了显著挑战。CSM-MTBench数据集由东京大学和小红书公司的研究人员于2026年创建,旨在系统评估机器翻译系统在处理真实中文社交媒体文本时的性能。该数据集覆盖中文与西班牙语、法语、日语、韩语及俄语五种语言方向,包含两个专家精心构建的子集:Fun Posts侧重于语境丰富、俚语与新词密集的长篇帖子,Social Snippets则聚焦于简洁、情感与风格驱动的短评。通过引入针对性的评估方法,如俚语成功率与嵌入相似度度量,该数据集为提升机器翻译在非正式、动态语言环境中的适应能力提供了重要基准。
当前挑战
CSM-MTBench所针对的领域问题是机器翻译在中文社交媒体文本上的性能评估,其核心挑战在于准确翻译不断涌现的俚语与新词,并保持原文的情感基调与风格特征。传统评估指标如BLEU或COMET往往难以捕捉非标准表达与风格保真度,导致评测结果与人类判断存在偏差。在数据集构建过程中,主要挑战包括高质量平行数据的稀缺性,这要求双语标注者不仅精通两种语言,还需熟悉平台特定的俚语与文化背景;同时,短小精悍的社交媒体片段常依赖隐含的语境与情感线索,为标注的一致性带来了额外困难。
常用场景
经典使用场景
在自然语言处理领域,机器翻译的评估长期依赖于新闻或维基百科等正式文本,然而社交媒体文本中涌现的俚语、新词和高度风格化表达构成了独特挑战。CSM-MTBench通过精心构建的Fun Posts和Social Snippets两个子集,为机器翻译系统提供了针对中文社交媒体文本的标准化测试平台。Fun Posts侧重于包含丰富上下文和大量俚语的长篇用户帖子,而Social Snippets则聚焦于简短、情感驱动的高度风格化评论,共同模拟了真实社交媒体的语言多样性。
实际应用
在实际应用层面,CSM-MTBench能够直接服务于社交媒体内容的多语言传播与跨文化交流。例如,在跨境电商、在线客服、内容本地化等场景中,需要准确翻译用户生成的评论、帖子中的情感倾向和特定平台用语。该数据集可帮助优化翻译模型,使其更好地处理“无语到家了”等网络流行语,或保留“哇塞老师好萌!”等短句中的惊叹语气,从而提升跨语言社交互动的自然度和准确性。
衍生相关工作
CSM-MTBench的发布促进了社交媒体机器翻译研究方向的深化,催生了一系列相关探索。例如,针对新词翻译的强化学习方法NeoAMT、结合文化特定词提示的翻译优化策略,以及基于风格嵌入的跨语言风格评估框架mStyleDistance等研究均受其启发。这些工作进一步拓展了非正式文本翻译的评估维度和技术路径,形成了以CSM-MTBench为基准的系列研究生态。
以上内容由遇见数据集搜集并总结生成



