five

MUTANT

收藏
Hugging Face2025-03-25 更新2025-03-26 收录
下载链接:
https://huggingface.co/datasets/LingoIITGN/MUTANT
下载链接
链接失效反馈
官方服务:
资源简介:
MUTANT(多句子代码混合印地-英语数据集)是一个高质量的双语(印地语和英语)代码混合数据集,设计用于与多句子文本处理相关的任务,尤其是摘要和评估。
创建时间:
2025-03-21
搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言信息处理领域,MUTANT数据集的构建体现了严谨的学术规范。该数据集通过系统采集印度政府门户网站的政治演讲、新闻发布稿以及主流印地语新闻网站的文章,构建了一个规模达67007份文档的高质量语料库。为确保语料代表性,研究团队特别注重文本的正式性和多样性,最终收录的84937个代码混合文本单元(MCT)中,近三分之二来源于《Dainik Jagran》新闻机构的专业报道。
特点
作为当前最大的印地语-英语混合编码文本资源,MUTANT数据集在语言学特征上具有显著优势。其文本同时包含印地语(hi)和英语(en)双语元素,特别适合多语句代码混合研究。数据集按新闻来源划分为七个独立配置,其中政治演讲(PM-speech)和新闻文章(Jagran)等子集通过分片存储设计,既保持语料完整性又便于分布式处理。10万量级的文本规模与CC-BY-4.0开放许可,为自然语言处理研究提供了重要基础。
使用方法
针对文本摘要任务的特性,MUTANT数据集采用分源分块的组织架构。使用者可通过HuggingFace平台直接加载特定新闻源配置,如Aap或Jagran子集,每个子集按逻辑划分的part文件支持渐进式加载。研究人员可基于官方提供的6.7万条多语句样本,开展跨语言摘要生成、混合编码文本质量评估等实验。数据调用时需遵循ACL引用规范,并在成果中标注Lingo研究组的学术贡献。
背景与挑战
背景概述
MUTANT数据集由印度理工学院甘地分校的Lingo研究团队于2023年推出,旨在解决印地语-英语混合文本(Hinglish)的多语句处理问题。该数据集聚焦于政治演讲和新闻文章两大领域,收录了来自政府门户网站及主流印地语新闻媒体的混合语料,共计包含67007份文档和84937个混合代码文本片段。作为首个专注于多语句混合文本摘要任务的大规模数据集,MUTANT为计算语言学领域提供了研究语言混合现象的重要基准,其发布在EACL 2023会议的研究成果显著推动了跨语言自然语言处理的发展。
当前挑战
构建MUTANT数据集面临双重挑战:在领域问题层面,混合语言文本的句法结构不规则性和语义不连贯性对自动摘要系统提出了更高要求,需要模型同时理解两种语言的深层特征;在构建过程中,研究团队需解决原始语料中非正式表达规范化、方言变体统一等难题,特别是从政治演讲转录文本中去除口语化表达,以及平衡不同新闻来源的文体差异。此外,标注过程中如何界定混合文本边界、保持语义完整性,都是需要克服的技术障碍。
常用场景
经典使用场景
在自然语言处理领域,MUTANT数据集为研究多语句代码混合文本处理提供了重要资源。该数据集特别适用于文本摘要任务,能够帮助研究者探索印地语和英语混合文本的自动摘要生成方法。其多源数据特性使得模型能够在政治演讲和新闻文章等不同风格的文本上进行泛化性能测试。
实际应用
在实际应用中,MUTANT数据集可支持开发面向印度市场的智能文本处理系统。基于该数据集训练的模型能够处理政府公告、新闻报道等正式场景下的代码混合文本,为跨语言信息检索、内容推荐系统等应用提供技术支持,满足多语言用户群体的信息获取需求。
衍生相关工作
围绕MUTANT数据集已产生多项重要研究成果,包括代码混合文本的表示学习方法、跨语言迁移学习框架等。该数据集启发了对混合语言文本特性的深入分析,推动了如HinglishBERT等预训练模型的发展,为低资源语言处理提供了新的研究范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作