CHALIS
收藏Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/michal-tichy/CHALIS
下载链接
链接失效反馈官方服务:
资源简介:
CHALIS(挑战性语言识别样本)是一个多标签数据集,旨在测试在困难场景下的语言识别能力。数据集主要包含四种语言对的句子(西班牙语-加泰罗尼亚语、葡萄牙语-加利西亚语、丹麦语-挪威语、捷克语-斯洛伐克语),这些句子由人类专家分类为两类:`joint`(属于两种语言)和`single`(仅属于一种语言)。数据集分为四个部分:非语言数据(如电子邮件、ISBN等)、单语言句子(仅属于语言对中的一种)、联合语言句子(属于语言对中的两种语言)以及转写句子(包括俄语到捷克字母的转写、西里尔字母到拉丁字母的转写、哈萨克语从西里尔字母到阿拉伯字母的转写等)。数据集支持多种语言(如英语、西班牙语、加泰罗尼亚语、葡萄牙语等),规模在10K到100K之间,适用于文本分类和语言识别任务。
CHALIS (Challenging Language Identification Samples) is a multi-label dataset designed to test language identification capabilities in challenging scenarios. The dataset primarily contains sentences from four language pairs (Spanish-Catalan, Portuguese-Galician, Danish-Norwegian, Czech-Slovak), which are classified by human experts into two categories: `joint` (belonging to both languages) and `single` (belonging to only one language). The dataset is divided into four parts: non-linguistic data (e.g., emails, ISBNs), single-language sentences (belonging to only one language in the pair), joint-language sentences (belonging to both languages in the pair), and transcribed sentences (including transcriptions from Russian to Czech script, Cyrillic to Latin script, Kazakh from Cyrillic to Arabic script, etc.). The dataset supports multiple languages (e.g., English, Spanish, Catalan, Portuguese) and ranges in size from 10K to 100K, making it suitable for text classification and language identification tasks.
创建时间:
2026-04-14
原始信息汇总
数据集概述:CHALIS - Challenging Language Identification Samples
CHALIS 是一个多标签数据集,旨在测试语言识别模型在困难场景下的能力。数据集总量级为 10K 到 100K 之间(10K<n<100K)。
许可证
- CC-BY-NC-4.0(非商业用途)
任务类型
- 文本分类(text-classification)
支持语言
涵盖14种语言:英语、西班牙语、加泰罗尼亚语、葡萄牙语、加利西亚语、捷克语、斯洛伐克语、丹麦语、挪威语、越南语、俄语、哈萨克语。
标签
- 语言识别(language_identification)
数据集构成
数据集主要包含一个核心贡献:由人类专家对四组语言对(西班牙语-加泰罗尼亚语、葡萄牙语-加利西亚语、丹麦语-挪威语、捷克语-斯洛伐克语)的句子进行分类。句子被分为两类:
- joint:同时属于两种语言的句子。
- single:仅属于其中一种语言的句子。
四个主要部分
- non-language:非语言数据,如电子邮件、ISBN等。
- single:在数据收集过程中仅被分配到一个语言的句子,构成一个极具挑战性的数据集,用于识别语言对中较少使用的一种语言。
- joint:在数据收集过程中被分配到两种相近语言的句子。
- transliteration:包含多个子部分:
- czech:俄语转写为捷克字母。
- cyrilic:西里尔文字符句子转写为拉丁字符。
- arabic:哈萨克语(西里尔字母书写)转写为阿拉伯字母。
- latin:重音符号密集的语言句子转写为纯拉丁字符。
- antspeak:英语句子转写为蚂蚁语言。
- leet:英语句子转写为 Leet 语。
- random:将英语、捷克语和斯洛伐克语句子中的随机字母替换为俄语和希腊字母,同时保持句子可读。
搜集汇总
数据集介绍

构建方式
CHALIS数据集专为挑战性语言识别场景而设计,其构建依托于人类专家对四组高度相似语言对(西班牙语-加泰罗尼亚语、葡萄牙语-加利西亚语、丹麦语-挪威语、捷克语-斯洛伐克语)的句子进行精细分类。专家将每个句子归类为“联合”(属于两种语言)或“单一”(仅属于一种语言),从而形成难度各异的子集。此外,数据集还包含了非语言文本(如电子邮件、ISBN号)以及多种音译子集,涵盖从西里尔字母到拉丁字母的转换、反语(antspeak)、黑客语(leetspeak)及随机替换特定字母等复杂变换,旨在模拟现实世界中语言多样性与干扰交织的情境。
特点
CHALIS的核心特色在于其聚焦于语言识别中的边缘与困难案例。通过精心挑选高度同源的语言对,并区分单语言与共语言句子,它评估系统在细微差异下辨别的鲁棒性。音译部分的加入更进一步提升了挑战性,涵盖了字母系统转换、字符变形及符号替换等场景,使得该数据集成为测试语言识别模型对噪声、变体及码混合处理能力的基准。多语言覆盖(含12种语言)与多层次标签结构(如联合、单一、不同音译类型)使其在细粒度评估中独树一帜。
使用方法
该数据集适用于文本分类任务,尤其是多标签语言识别模型的评估与调优。用户可直接加载CHALIS作为测试集,利用其包含的联合与单一样本检验模型对相似语言的区分能力,并通过音译子集验证其对转录变体的容忍度。在实践中,可将其与标准语言识别训练数据结合,通过对比不同子集的表现来定位模型弱点。鉴于许可协议为CC-BY-NC-4.0,非商业性研究可自由使用,建议在实验中按语言对或音译类型分组,以系统分析模型在特定干扰下的表现模式。
背景与挑战
背景概述
CHALIS(Challenging Language Identification Samples)数据集由多语言文本分类研究领域构建,发布于2023年,旨在应对语言识别任务在复杂场景下的挑战。该数据集由多个人类专家协作创建,核心研究问题聚焦于高相似度语言对(如西班牙语与加泰罗尼亚语、葡萄牙语与加利西亚语、丹麦语与挪威语、捷克语与斯洛伐克语)的区分,以及非标准文本(如音译变体、符号替换)的语言归属判定。作为多标签数据集,其规模涵盖10K至100K样本,涵盖14种语言,在低资源语言识别、跨语言迁移学习等领域具有重要影响力,为评估和提升模型对语言细微差异的鲁棒性提供了基准。
当前挑战
该数据集所解决的领域挑战主要包括:1) 高相似度语言对的判别难题,如捷克语与斯洛伐克语在词汇与句法上的高度重叠,导致传统语言识别模型常混淆二者,CHALIS通过人工标注的“联合”与“单一”类别,迫使模型捕捉细微特征差异;2) 非标准文本变体的语言识别,包括音译(如俄语西里尔字母转捷克字母)、符号替换(如leet语、蚂蚁语)及随机字母替换,这些变体破坏原始语言特征,要求模型具备去噪声与模式泛化能力。构建过程中,专家需面对跨语言标注的一致性挑战,例如判定句子的语言归属时,需避免主观偏差,确保“联合”类别中双语混合句的阈值设定合理,这对标注规范和数据集质量提出了高要求。
常用场景
经典使用场景
在自然语言处理领域中,语言识别作为一项基础任务,对多语言信息处理至关重要。CHALIS数据集专为挑战性语言识别场景而设计,其经典用途在于评估和提升模型对高度相似语言对(如西班牙语-加泰罗尼亚语、葡萄牙语-加利西亚语等)的区分能力,以及对非语言文本、联合语句和多种转写形式(包括西里尔字母拉丁化、阿拉伯字母转写及leet语)的鲁棒性。研究者常利用该数据集检验语言识别系统在极端条件下的性能边界。
衍生相关工作
CHALIS数据集的发布催生了多项衍生研究,尤其是在低资源语言识别与对抗性评估方面。相关工作包括利用对比学习框架增强模型在相似语言对上的判别能力,例如基于难度采样策略训练的多任务语言识别器。此外,转写子集激发了关于字符级语言建模的统一方法研究,如将西里尔字母转写和Leet语识别整合进端到端系统。一些工作还借鉴其联合语句设计,探索多标签分类与语言边界检测的结合,推动了语言识别技术向更精细化的层次演进。
数据集最近研究
最新研究方向
CHALIS数据集的问世,精准回应了语言识别领域中多语言混淆与变形文本识别的前沿挑战。该数据集聚焦于西班牙语-加泰罗尼亚语等高相似度语种对的细粒度区分,并创新性地纳入非语言片段与7类转写变体(如西里尔字母拉丁化、黑客语Leet),直击当前语音助手与多语言社交平台中低资源语种与复杂噪声干扰的痛点。其多标签标注体系为跨场景泛化提供了严苛基准,尤其在混合代码、字形混淆等热点问题中,推动了从统计特征向深度学习鲁棒性的迭代验证,对构建高容错、低资源语种的识别模型具有里程碑式意义。
以上内容由遇见数据集搜集并总结生成



