RedTrans-Bench
收藏arXiv2025-04-11 更新2025-04-12 收录
下载链接:
https://github.com/HC-Guo/RedTrans
下载链接
链接失效反馈官方服务:
资源简介:
RedTrans-Bench是由北京航空航天大学、小红书公司等机构共同构建的社交网络服务(SNS)翻译数据集。该数据集包含2858个经过精心挑选的英语-汉语翻译对,涵盖了用户帖子、评论和多媒体字幕等内容。数据集的构建目的是为了评估和训练机器翻译模型在处理SNS领域文化敏感性内容的能力,如幽默定位、表情符号语义和模因适配等。数据集通过严格的人工审核确保了内容的相关性和可靠性,并针对社交网络的特点进行了预处理和优化。
RedTrans-Bench is a social network service (SNS) translation dataset jointly constructed by Beihang University, Xiaohongshu and other institutions. This dataset includes 2858 carefully selected English-Chinese translation pairs, covering content such as user posts, comments and multimedia subtitles. The dataset is designed to evaluate and train the ability of machine translation models to handle culturally sensitive content in the SNS domain, such as humor localization, emoji semantics, meme adaptation and other similar scenarios. It has passed strict manual audits to guarantee the relevance and reliability of the content, and has been preprocessed and optimized in accordance with the characteristics of social networks.
提供机构:
北京航空航天大学, 小红书公司, 北京邮电大学, 南京大学
创建时间:
2025-04-11
搜集汇总
数据集介绍

构建方式
RedTrans-Bench数据集的构建采用了多阶段精细化的流程,首先从主流社交平台采集了2,858个中英双语对照的SNS内容样本,涵盖用户帖子(45%)、评论(30%)和多媒体字幕(25%)三大类型。通过三级过滤机制确保数据质量:政治敏感内容剔除、用户隐私信息脱敏、低质量模拟数据清洗,并创新性地引入20人专家团队进行交叉验证,采用多数表决机制解决标注分歧。数据标注特别关注文化迁移现象,包括需要本地化的文化梗(如'FOMO→错失焦虑')、表情符号语义映射(如💀→'笑死')以及跨文化迷因适配(如Doge表情→'狗头'文化)等典型场景。
使用方法
使用该数据集需遵循三阶段流程:预处理阶段需加载JSON格式的平行语料,通过MD5哈希去重并控制中英长度比在0.7-1.3之间;模型训练推荐采用双LLM回译采样策略,以前向翻译LLM1(A)→B1与LLM2(A)→B2、回译LLM1(B1)→C1与LLM2(B2)→C2生成差异样本,按BLEU分数差分层抽样;评估环节建议结合传统指标(BLEU/chrF++)与文化适应度分析,特别注意对比'字面翻译'与'文化适配翻译'在XCOMET语义评分与BLEU词汇评分上的差异,如'you are not my type'两种译文的0.9728与0.2907分差所示。
背景与挑战
背景概述
RedTrans-Bench是由小红书公司、北京航空航天大学等机构的研究团队于2025年推出的首个面向社交网络服务(SNS)机器翻译的基准测试数据集。该数据集包含2,858个精心筛选的中英双语测试案例,涵盖用户帖子(45%)、评论(30%)和多媒体字幕(25%)等典型社交网络内容。研究团队针对传统机器翻译模型在文化敏感内容(如梗图、俚语、流行文化引用)处理上的不足,创新性地提出了基于双LLM回译采样的数据构建方法。该数据集作为RedTrans 720亿参数大模型的配套评估体系,显著推动了跨文化社交场景下的语义本地化研究,其构建方法论已被应用于实际生产环境部署。
当前挑战
RedTrans-Bench主要应对两大核心挑战:在领域问题层面,社交网络内容存在高度语境依赖性,传统翻译模型难以处理文化特定表达(如英文'FOMO'需译为中文'错失焦虑')、表情符号多义性(如💀对应'笑死'而非字面意义)等非结构化语言现象;在构建过程层面,研究团队需解决三大技术难题:1) 通过双LLM回译质量差异进行数据分层采样,平衡语义多样性与翻译准确性;2) 设计改写偏好优化算法(RePO)修正噪声偏好标签,其中23.6%的原始偏好对经专家校验存在标注误差;3) 建立多阶段内容过滤机制,清除政治敏感(占比12.7%)、低质量(占比8.3%)及隐私信息(占比5.4%)等不符合要求的数据样本。
常用场景
经典使用场景
在全球化社交互动的背景下,RedTrans-Bench数据集为社交网络服务(SNS)中的机器翻译任务提供了独特的评估基准。该数据集专门针对SNS平台上的文化敏感内容,如表情符号、俚语和流行文化引用,为研究人员提供了一个标准化的测试环境。通过包含2,858个精心筛选的中英文对照测试案例,RedTrans-Bench能够全面评估翻译模型在处理非正式、高语境内容时的表现。
解决学术问题
RedTrans-Bench解决了传统机器翻译模型在处理SNS内容时的两大关键问题:文化差异和语境复杂性。传统模型往往难以准确翻译具有文化背景的短语(如“破防了”译为“emotional breakdown”),而RedTrans-Bench通过提供多样化的测试案例,帮助研究者开发更具文化适应性的翻译模型。此外,该数据集还填补了SNS领域高质量评估数据的空白,为模型开发和公平比较提供了可靠基础。
实际应用
在实际应用中,RedTrans-Bench已被用于优化社交平台的多语言内容翻译。例如,小红书(Xiaohongshu)利用该数据集训练的RedTrans模型,显著提升了用户生成内容的翻译质量,特别是在处理表情符号和网络流行语时。这种改进直接增强了跨文化用户的互动体验,使平台内容在全球范围内更易于理解和传播。
数据集最近研究
最新研究方向
随着社交媒体在全球范围内的普及,跨文化交流的需求日益增长,RedTrans-Bench数据集的推出填补了社交网络服务(SNS)机器翻译领域的空白。该数据集专注于捕捉文化特有的表达方式,如网络迷因、俚语和流行文化引用,这些都是传统机器翻译系统难以处理的领域。近期研究集中在利用大型语言模型(LLMs)进行领域特定适配,通过创新的监督微调方法和偏好优化算法,提升翻译质量。RedTrans-Bench不仅是评估基准,也为模型训练提供了高质量的数据支持,推动了机器翻译在非正式和高语境环境中的发展。
相关研究论文
- 1Redefining Machine Translation on Social Network Services with Large Language Models北京航空航天大学, 小红书公司, 北京邮电大学, 南京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



