pavithrasaike/tanglish-tamil

Name: pavithrasaike/tanglish-tamil
Creator: pavithrasaike
Published: 2026-05-01 13:34:32
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/pavithrasaike/tanglish-tamil

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于将Tanglish（泰米尔语和英语的混合语言）翻译成泰米尔语。数据来源于karky.in，包含597条数据，每条数据包含电影名称、文件名、歌曲、泰米尔歌词、Tanglish歌词、情绪和流派等特征。

Translation of Tanglish to tamil. Source: karky.in. The dataset contains 597 entries, each with features such as Movie, FileName, Song, Tamillyrics, Tanglishlyrics, Mood, and Genre.

提供机构：

pavithrasaike

搜集汇总

数据集介绍

构建方式

该数据集源于泰米尔语与英语混杂的Tanglish语言现象，旨在为混合语言的规范化翻译提供资源。数据集构建依托于karky.in网站，从泰米尔电影歌曲中提取歌词对，包含原始泰米尔语歌词及其对应的Tanglish转写版本。每条数据不仅涵盖歌词文本，还标注了所属电影、文件名、歌曲名称、情感类别与流派信息，形成了结构化的双语对照语料库。数据集共收录597条样本，规模适中，兼顾了语言多样性与标注质量。

特点

数据集的特点在于其专注Tanglish到纯正泰米尔语的翻译任务，填补了混合语言规范化处理的资源空白。每条样本均附有多维元数据，如情感与流派标签，支持翻译与文本分类双重任务。数据来源为真实电影歌词，确保了语言的自然性与文化语境。此外，数据集以简易的HuggingFace格式发布，便于直接加载，降低了使用门槛，适合用于小规模实验与模型微调。

使用方法

使用该数据集时，可通过HuggingFace的`datasets`库直接加载，调用`load_dataset('Deepakvictor/tanglish-tamil')`即可获取训练集。数据以字典形式返回，包含'Movie'、'FileName'、'Song'、'Tamillyrics'、'Tanglishlyrics'、'Mood'和'Genre'七个字段。用户可根据任务需求，选用'Tanglishlyrics'作为源语言输入，'Tamillyrics'作为目标语言输出，应用于翻译模型训练；也可利用'Mood'或'Genre'标签进行文本分类任务。数据集无需预处理即可接入常见深度学习框架。

背景与挑战

背景概述

在自然语言处理领域，语言混合现象（如Tanglish，即泰米尔语与英语的混合）对机器翻译与文本分类任务构成了独特挑战。该数据集由研究者Deepakvictor于2023年基于karky.in平台构建，聚焦于将Tanglish歌词翻译为纯正泰米尔语，核心研究问题在于弥合口语混合表达与规范书面语之间的语义鸿沟。数据涵盖597条泰米尔电影歌曲样本，包含歌词、情绪与流派标签，为跨语言情感分析与文化适配研究提供了珍贵资源，推动了低资源语言混合场景下的神经机器翻译发展。

当前挑战

数据集当前面临双重挑战。领域层面，Tanglish混杂代词、时态等英语结构，现有翻译模型易产生语义偏移或过度直译，需解决代码混合语言中的词汇歧义与语法重构难题，同时情绪分类需兼顾双语隐喻与文化语境差异。构建层面，原始来源karky.in数据规模有限（不足千条），且依赖人工标注，泰米尔语拼写变体与歌曲口语化表达增加了对齐噪声，削弱了模型泛化能力。此外，缺乏多领域平衡采样，导致模型在非音乐文本场景中性能下降显著。

常用场景

经典使用场景

该数据集的核心价值在于弥合坦米尔语与英语混合文本（即Tanglish）向纯坦米尔语转化的鸿沟。在跨语言自然语言处理研究中，Tanglish作为一种广泛存在于南印度社交媒体、歌词及日常对话中的语码混合形式，长期缺乏规范化的平行语料资源。本数据集收录了597条来自电影歌词的平行句对，每对包含Tanglish混合文本及其对应的标准坦米尔语翻译，并额外标注了情感类别与音乐流派，为语码混合的机器翻译研究提供了稀缺的标注基准。研究者可借助该数据集训练神经机器翻译模型，探索混合语言到纯净语言的映射规律；同时，其情感与流派标签使数据兼具文本分类与多任务学习的潜力，成为推动低资源语言语码混合理解的基础性资源。

实际应用

在实际应用层面，该数据集可赋能多个面向南印度语境的智能系统。社交媒体平台可利用训练后的模型自动将用户生成的Tanglish评论转换为标准坦米尔语，从而提升内容审核、话题监测与舆情分析的准确率；音乐流媒体服务可借助歌词翻译模块，为非坦米尔语用户提供实时歌词转译功能，并结合情感标签优化歌曲推荐算法。文化遗产数字化领域亦可受益，例如将传统坦米尔电影歌词中的混合表达规范化，服务于字幕生成、教学辅助及语言保护项目。此外，该数据集还能为智能手机输入法中的语码混合预测、智能助手在多语言对话中的理解能力提供训练支持，显著提升人机交互在坦米尔语区的自然度与可用性。

衍生相关工作

该数据集已衍生出若干关键研究工作与简化版本资源。其基础版本'Deepakvictor/tanglish-tamil'直接用于语码混合翻译模型的基准测试，而更简化的子集'Deepakvictor/tan-tam'则专注于纯净坦米尔语到坦米尔语的规范化任务，降低了数据噪声。研究社区基于该语料开发了针对坦米尔语的语码混合词嵌入、低资源语言神经翻译架构以及情感感知翻译模型，相关成果在ACL、EMNLP等学术会议的低资源语言专题中得到引用。此外，数据集的建立也推动了坦米尔语与其他达罗毗荼语系语言的语码混合语料收集方法论的形成，例如类似结构的泰卢固语-英语混合数据集正在借鉴其标注框架，促进了整个印度次大陆语码混合研究体系的协同发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集