SlangDIT

Name: SlangDIT
Creator: 腾讯公司微信AI模式识别中心
Published: 2025-05-20 18:37:34
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

https://github.com/XL2248/SlangDIT

下载链接

链接失效反馈

官方服务：

资源简介：

SlangDIT数据集是一个包含超过25,000个英汉句子对的数据集，每个句子至少包含一个俚语，并带有相应的跨语言俚语解释。该数据集旨在促进对俚语理解和翻译的研究，特别是针对语境依赖性语义扩展的挑战。数据集的创建过程涉及使用先进的语言模型进行俚语识别、提取、解释生成和一词多义标注。SlangDIT数据集在俚语检测、跨语言俚语解释和俚语翻译等领域具有广泛的应用前景，有助于提升机器翻译的准确性和自然性。

The SlangDIT dataset is a collection of over 25,000 English-Chinese sentence pairs, where each sentence contains at least one slang term and is accompanied by corresponding cross-lingual slang explanations. This dataset aims to advance research on slang understanding and translation, particularly addressing the challenges posed by context-dependent semantic expansion. The construction of the SlangDIT dataset involves the use of state-of-the-art language models for slang identification, extraction, explanation generation, and polysemy annotation. The SlangDIT dataset has broad application prospects in fields such as slang detection, cross-lingual slang explanation, and slang translation, and it helps improve the accuracy and naturalness of machine translation.

提供机构：

腾讯公司微信AI模式识别中心

创建时间：

2025-05-20

搜集汇总

数据集介绍

构建方式

在构建SlangDIT数据集时，研究团队基于大规模电影字幕数据（约2800万英汉句对），通过先进的大语言模型（如Qwen2.5-72b和Llama3.3-70b）进行自动标注。具体步骤包括：首先过滤攻击性和低质量句子，利用Qwen2.5-72b判断句子是否包含俚语；随后通过双模型交叉验证提取俚语术语，并由GPT-4o确认其俚语属性；接着使用Qwen2.5-72b生成中文解释；最后通过GPT-4o标注俚语术语的多义性。经过严格筛选，最终获得包含2.5万句对的数据集，涵盖13,580个普通俚语术语和7,818个多义俚语术语。

特点

SlangDIT数据集具有以下显著特点：1）多任务集成性，同时支持俚语检测、跨语言俚语解释和翻译三项任务；2）语境敏感性，特别关注多义俚语在不同上下文中的语义变化；3）高质量标注，通过多模型协同验证确保数据可靠性；4）规模优势，俚语实例数量（20,233个）远超同类数据集；5）自然语料来源，所有句子均选自真实电影对话，保留了俚语的自然使用场景。数据集中英语句子平均长度7.89词，中文翻译12.47字，解释文本74.06字，体现了语言表达的多样性。

使用方法

使用SlangDIT数据集时，建议采用以下流程：首先进行俚语检测，识别句子中的非正式表达；对于检测到的俚语，通过上下文分析确定其具体语义（特别是多义俚语）；然后参考提供的跨语言解释理解俚语的文化内涵；最后结合前两步的分析结果生成准确翻译。数据集支持端到端评估，可通过BLEU、ROUGE等指标分别衡量翻译质量和解释准确性。研究团队提出的SlangOWL模型展示了典型使用方法：通过模拟人类认知过程（检测→多义分析→解释生成→翻译）实现俚语的精准转换，该方法的思维链数据已包含在数据集中可供参考。

背景与挑战

背景概述

SlangDIT数据集由腾讯微信AI团队于2025年提出，旨在解决俚语翻译中的语境依赖性难题。作为首个融合俚语检测、跨语言解释与翻译的基准数据集，其包含2.5万英中句对，标注了13,580个通用俚语及7,818个多义俚语。该数据集通过电影字幕构建，采用Qwen2.5-72B、Llama3.3-70B和GPT-4o三重模型校验机制确保质量，显著推动了自然语言处理领域对非正式语言理解的研究。

当前挑战

该数据集面临双重挑战：在领域层面，俚语的多义性和文化特异性导致传统翻译模型难以捕捉其隐含语义（如'carried a torch'在不同语境分别表示'暗恋'或'持火炬'）；在构建层面，需克服三大难点——从2800万句对中精准识别0.028%的俚语句子，通过跨模型共识解决标注分歧（Fleiss' κ=0.685），以及为多义俚语生成上下文相关的解释（如'Annie Oakley'需区分人名与'神枪手'俚语）。

常用场景

经典使用场景

SlangDIT数据集在自然语言处理领域，特别是机器翻译和俚语理解研究中具有重要应用。该数据集主要用于评估大型语言模型（LLMs）在俚语检测、跨语言俚语解释和俚语翻译任务中的表现。通过提供包含俚语的英文句子及其对应的中文翻译和解释，SlangDIT为研究人员提供了一个全面的基准，用于测试模型在复杂语境下的理解和翻译能力。

衍生相关工作

SlangDIT数据集已衍生出多个重要研究方向。基于该数据集，研究人员开发了SlangOWL等深度思考模型，探索了分步推理在自然语言处理中的应用。相关研究还扩展到了多语言俚语理解、语境感知翻译等领域。此外，该数据集的设计理念也启发了其他非正式语言处理任务的数据集构建，如方言翻译和网络用语理解等研究。

数据集最近研究