COMI-LINGUA

Name: COMI-LINGUA
Creator: 印度理工学院甘地纳格尔分校
Published: 2025-03-28 00:36:39
License: 暂无描述

arXiv2025-03-28 更新2025-03-29 收录

下载链接：

https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA

下载链接

链接失效反馈

官方服务：

资源简介：

COMI-LINGUA是由印度理工学院甘地纳格尔分校的LINGO团队创建的大型人工标注数据集，包含100,970个实例，由三位专家注释者以梵文和罗马文两种脚本进行评估。该数据集支持五种基本的自然语言处理任务：语言识别、矩阵语言识别、词性标注、命名实体识别和翻译。数据集涵盖多种领域，包括社交媒体、新闻和 informal 谈话，确保了真实世界的语言和上下文多样性，适用于多种语言处理系统的开发和评估。

COMI-LINGUA is a large-scale manually annotated dataset created by the LINGO Team at the Indian Institute of Technology Gandhinagar. It contains 100,970 instances, which were evaluated by three expert annotators using both Sanskrit and Roman scripts. This dataset supports five core natural language processing tasks: language identification, matrix language identification, part-of-speech tagging, named entity recognition, and machine translation. Covering multiple domains including social media, news, and informal conversations, the dataset ensures real-world linguistic and contextual diversity, making it suitable for the development and evaluation of various language processing systems.

提供机构：

印度理工学院甘地纳格尔分校

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

在数字通信迅猛发展的背景下，多语言社区中印地语-英语混合使用的现象日益普遍。COMI-LINGUA数据集的构建采用了系统化的五步框架，以确保高质量的标注。首先，通过爬取新闻、政治、娱乐等多个领域的公开平台内容，结合现有研究中的混合语料，收集了涵盖德瓦纳格里和罗马字母的真实文本。随后，通过正则表达式进行质量检查，去除噪声内容，并计算混合指数（CMI）筛选高质量数据。标注过程由三位精通印地语和英语的专家完成，采用COMMENTATOR框架，覆盖语言识别、词性标注等五项基础NLP任务，确保了标注的一致性和准确性。

特点

COMI-LINGUA数据集以其规模化和多样性著称，包含100,970条经过三位专家标注的实例，涵盖了德瓦纳格里和罗马字母两种书写形式，真实反映了社交媒体的语言混合模式。该数据集支持五项核心NLP任务，包括语言识别、命名实体识别等，为多语言系统的全面评估提供了基准。其跨领域的语料来源，如新闻、社交媒体等，确保了语言和上下文的高度多样性，增强了数据集的实用性和广泛适用性。

使用方法

COMI-LINGUA数据集为研究者和开发者提供了处理印地语-英语混合文本的强大工具。用户可通过Hugging Face平台访问数据集，直接应用于模型训练和评估。数据集支持的多任务框架允许用户同时进行语言识别、词性标注等多项任务，提升模型在多语言环境下的综合性能。此外，数据集的标注质量和丰富的上下文信息使其成为改进现有语言模型、特别是处理混合文本能力的理想资源。通过微调模型，用户可显著提升在复杂语言环境中的表现。

背景与挑战

背景概述

COMI-LINGUA是由印度理工学院甘地分校的Rajvee Sheth、Himanshu Beniwal和Mayank Singh等人于2025年推出的多任务印地语-英语混合语数据集。该数据集旨在解决多语言社区中日益普遍的代码混合现象，特别是在印地语和英语混合使用的社交媒体文本中。COMI-LINGUA包含100,970个由三位专家标注的实例，涵盖天城体和罗马字母两种书写形式，支持语言识别、矩阵语言识别、词性标注、命名实体识别和翻译等五种基础自然语言处理任务。该数据集的推出填补了现有资源在标注质量、规模和多任务覆盖上的空白，为印地语-英语混合文本处理提供了重要基准。

当前挑战

COMI-LINGUA面临的挑战主要体现在领域问题和构建过程两方面。在领域问题方面，代码混合文本的复杂语法结构和跨脚本特性给语言识别、实体标注等任务带来困难，现有多语言模型在处理混合脚本时表现不佳。构建过程中的挑战包括：1)真实语料采集需平衡罗马化和天城体文本的比例；2)大规模人工标注需克服标注者间一致性控制难题；3)数据清洗需有效识别和过滤单语文本及低质量混合实例；4)多任务标注框架设计需协调不同任务间的标注冲突。这些挑战突显了混合语言资源开发的复杂性，也指明了未来模型改进的方向。

常用场景

经典使用场景

在自然语言处理领域，COMI-LINGUA数据集为研究者提供了一个全面评估多语言混合文本处理能力的基准平台。该数据集特别适用于研究印地语-英语混合文本的语言识别、词性标注、命名实体识别等核心任务，尤其在社交媒体文本分析中展现出显著价值。通过包含德瓦纳格里文和罗马字母两种书写形式，该数据集能够真实反映印度次大陆多语言社区的实际语言使用情况。

衍生相关工作

基于COMI-LINGUA数据集已衍生出多个重要研究方向。在模型架构方面，研究者开发了专门处理混合文本的BERT变体HingBERT；在应用层面，出现了针对混合文本的情感分析系统SentiMix。该数据集还促进了COMMIT等混合语言问答框架的发展，并为GLUECoS等多任务评估基准的完善提供了数据支持。这些工作共同推动了混合语言计算语言学研究的深入发展。

数据集最近研究