Hinglish Dataset — 1.4 Million Samples

github2026-04-23 更新2026-04-24 收录

下载链接：

https://github.com/theYugrathee/hinglish-dataset-1.4M

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,466,926行Hinglish（印地语和英语混合）评论，主要来自YouTube评论。数据集经过工业级清洗管道处理，保留率为97.4%。数据集严格用于研究和评估目的，商业用途需获得明确书面同意。

This dataset contains 1,466,926 rows of Hinglish (Hindi-English mixed) comments, primarily sourced from YouTube comments. It has been processed through an industrial-grade data cleaning pipeline with a retention rate of 97.4%. This dataset is strictly intended for research and evaluation purposes only; explicit written consent must be obtained for any commercial use.

创建时间：

2026-03-29

原始信息汇总

数据集概览：Hinglish Dataset — 1.4M Samples

基本信息

数据集名称：Hinglish Dataset — 1.4 Million Samples
数据集语言：Hinglish（印地语与英语的代码混合语言）
数据集规模：
- 完整数据集：1,466,926 行
- 公开预览版（Teaser）：5,000 行
数据来源：来自 YouTube 评论区的大规模爬取
数据格式：JSON Array / JSONL（UTF-8 编码）
构建方：ScaleIndia AI（创始人：Yug Rathee）
许可证：仅限研究与评估用途，严禁商业使用、再分发或用于商业模型训练，需获得 ScaleIndia AI 书面许可

数据字段与模式

每条数据包含以下字段：

字段名	类型	描述
`id`	Integer	唯一顺序行 ID
`text`	String	清洗后的 Hinglish 文本（已去除 PII）
`intent`	String	9 种意图分类之一
`emotion`	String	10 种情感分类之一
`toxicity`	String	毒性等级：`Low` / `Medium` / `High`
`sarcasm`	String	是否包含讽刺：`Yes` / `No`
`language`	String	固定值为 `"hinglish"`
`quality_score`	Float	文本质量评分（0.0–1.0）
`label_confidence`	Float	标签置信度（0.0–1.0）
`label_method`	String	标签生成方法：`strong_signal` / `weak_signal` / `fallback`
`is_short`	Boolean	若少于 6 个可训练单词，则为 `true`

数据构建流程

爬取：通过工业级异步爬虫大规模收集 YouTube 评论
标准化：Unicode 标准化、表情符号处理、编码修复
PII 清洗：移除电话号码、邮箱、用户名等敏感信息
噪声过滤：移除纯表情、重复词垃圾、乱码字符
语言过滤：排除纯印地语、纯英语、翻译错误行
质量评分：基于词汇丰富度、结构、长度等进行启发式评分
去重：使用 SHA-256 精确去重 + MinHash LSH 近重复检测（128 排列）
标注：通过巨型正则表达式启发式标注器，生成 9 种意图 + 10 种情感标签
置信度评分：为每条数据分配 label_confidence（0.0–1.0）

完整数据集清洗报告（v7.0-turbo）

总输入行：1,506,178
保留行（清洁）：1,466,926（保留率 97.4%）
移除行（垃圾）：39,252（移除率 2.6%）
运行时：43 分钟，吞吐量 583 行/秒
移除细项：
- 噪声/垃圾（重复词、随机数字等）：8 行
- 语言问题（多数为英语、翻译错误等）：31,259 行
- 内容违规（辱骂内容）：5,778 行
- 精确重复：2,207 行
质量评分分布：80%+ 的保留行评分在 0.9–1.0，说明数据整体质量极高
标签质量：
- 强信号标签：230,241 行（15.7%）
- 弱信号标签：543,611 行（37.1%）
- 后备标签：693,074 行（47.2%）
- 短文本行（≤5 词）：250,791 行（17.1%）

5,000 行预览版（Teaser）分析

文本质量：
- 平均单词数：16.4 词/行
- 最大单词数：229 词
- 词汇多样性：16.10%
标签可靠性：
- 强信号行数：2,002 行（40.0%）
- 平均标签置信度：0.61 / 1.00
- 意图熵（多样性）：2.31（较高）
意图分布（前五）：
- Neutral（中性）：1,432 行（28.6%）
- Question（提问）：1,151 行（23.0%）
- Request（请求）：1,127 行（22.5%）
- Appreciation（赞赏）：984 行（19.7%）
- Criticism（批评）：112 行（2.2%）
情感分布（前五）：
- Neutral（中性）：2,611 行（52.2%）
- Happy（快乐）：1,064 行（21.3%）
- Curious（好奇）：583 行（11.7%）
- Frustrated（沮丧）：186 行（3.7%）
- Sad（悲伤）：179 行（3.6%）
健康检查：无重复行、ID 顺序、所有意图/情感类别均已覆盖、PII 已清洗、辱骂内容已过滤

应用场景

对话式 AI 与聊天机器人微调（已含意图 + 情感标签）
代码混合语言的情感与情绪分析
低资源 NLP 研究（公开可用的最大标注 Hinglish 数据集之一）
讽刺与毒性分类基准测试
多语言/代码混合大语言模型的预训练或微调
南亚互联网语言的学术研究

联系与商业获取

完整数据集（1,466,926 行）提供商业许可
包含：全部标签、毒性/讽刺标志、质量评分、置信度评分、JSON/JSONL 格式、商业训练权限（条款另行协商）
联系邮箱：yugrathee28@gmail.com
Instagram：@yugrathee.xe
完整数据集详情页地址：https://github.com/theYugrathee/hinglish-dataset-1.4M

搜集汇总

数据集介绍

构建方式

该数据集由ScaleIndia AI构建，创始人Yug Rathee主导开发。数据来源于YouTube评论的大规模异步抓取，原始输入达150余万条。构建流程涵盖Unicode标准化、PII脱敏、噪声过滤（去除纯表情、重复垃圾字符等内容）、语言筛选（排除纯印地语、纯英语及破碎翻译文本）、启发式质量评分、SHA-256精确去重与MinHash LSH近重复消除，最终通过Mega-Regex启发式标注器为每条文本赋予9类意图与10类情绪标签，并附带置信度评分。经严格清洗后，保留146万余条高质量样本，留存率达97.4%。

特点

作为目前公开可获取的规模最大的标注印地语-英语混合语料库之一，该数据集涵盖146万余条真实网络评论，每条样本均包含意图、情绪、毒性、讽刺性、质量分数及标签置信度等多维标注信息，标签体系覆盖9种意图类别与10种情绪类别。数据质量极为优异，80%以上保留样本的质量分数位于0.9至1.0区间。此外，语料库词数均值达16.4词/行，词汇多样性为16.10%，标签熵值高达2.31，反映出丰富多元的语言表达与意图分布。

使用方法

用户可通过GitHub仓库获取包含5000条样本的teaser文件（hinglish_teaser_5k.json），供研究评估之用。每条数据遵循统一JSON Schema结构，字段包括文本、意图、情绪、毒性、讽刺标志、语言、质量评分及标签置信度等。完整146万余条数据集需通过邮件联系ScaleIndia AI获取商业许可后方可使用。该数据集适用于对话式AI微调、情感分析、低资源NLP研究、讽刺与毒性分类基准测试，以及多语言混合语言模型的预训练或微调工作。

背景与挑战

背景概述

印地语与英语的混合变体（Hinglish）是印度互联网上超过5亿用户自然使用的语码混合语言，广泛出现于YouTube评论、WhatsApp聊天及社交媒体中。然而，这一语言在自然语言处理领域长期处于严重资源匮乏的境地，大多数大语言模型对其理解能力薄弱。为此，ScaleIndia AI的创始人Yug Rathee于2026年正式发布了包含146万余条标注样本的Hinglish数据集。该数据集通过工业级流水线从YouTube评论中采集、清洗并标注，涵盖9种意图与10种情感类别，兼具毒性检测与讽刺标记，旨在填补语码混合语言高质量标注数据的空白，为低资源NLP研究及多语言模型优化提供了关键基石。

当前挑战

构建该数据集的核心挑战首先来自语言本身的高度混合性与非规范性：Hinglish文本频繁混用天城文与拉丁字母、存在大量口语化缩写及语法碎片化，使得自动化清洗与标注极为困难，需设计复杂启发式规则过滤纯印地语、纯英语及翻译破碎的噪声内容，并采用MinHash LSH技术处理近重复项。其次，多类别标注的准确性是另一难题：由于缺乏大规模手动标注，数据集依赖分层置信度策略（强信号、弱信号、回退标签），但弱信号与回退标签占比高达84.3%，意图与情感分布的熵值虽高却仍存在稀疏类别（如讽刺仅占0.04%），这为下游模型的鲁棒性训练与细粒度语义理解带来了严峻考验。

常用场景

经典使用场景

在自然语言处理领域，Hinglish Dataset最经典的使用场景是用于构建和评估面向印地语-英语混合代码（Code-Mixed）文本的情感分析与意图识别模型。该数据集包含超过140万条来自YouTube评论的真实用户生成内容，每条样本均标注了9种意图类别与10种情感标签。研究者可利用其大规模的标注信息，训练出能够准确理解南亚互联网用户非正式、多语言混杂表达方式的分类器。这种场景特别适用于处理社交媒体中常见的语言混合现象，填补了传统模型在低资源混合语言上的空白。

衍生相关工作

该数据集衍生了一系列开创性工作，尤其在混合代码自然语言处理的基准测试设计方面。许多研究者将其作为数据基石，开发了针对Hinglish的专用词嵌入模型和轻量级分类架构。在学术领域，围绕此数据集催生了对代码混合文本中句法模式、语码转换触发条件以及跨语言语义对齐的实证研究。此外，其标注体系（如强弱信号置信度设计）也启发了后续多标签数据集的标注策略，推动了低资源语言知识蒸馏与少样本学习方法的快速发展。

数据集最近研究