SEACrowd/xsid

Name: SEACrowd/xsid
Creator: SEACrowd
Published: 2024-06-24 13:32:20
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/xsid

下载链接

链接失效反馈

官方服务：

资源简介：

XSID是一个用于跨语言（X）槽位和意图检测的新基准，涵盖了13种语言，包括一种非常低资源的方言。该数据集支持意图分类和词性标注任务。

XSID is a novel benchmark for cross-lingual (X) slot and intent detection, covering 13 languages including one extremely low-resource dialect. This dataset supports intent classification and part-of-speech tagging tasks.

提供机构：

SEACrowd

原始信息汇总

数据集概述

XSID 是一个新的跨语言（X）槽和意图检测基准，涵盖了来自 6 种语言家族的 13 种语言，包括一种非常低资源的方言。

支持的语言

印尼语（ind）

支持的任务

意图分类（Intent Classification）
词性标注（Pos Tagging）

数据集使用方法

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/xsid", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("xsid", schema="seacrowd")

查看数据集的所有可用子集（配置名称）

print(sc.available_config_names("xsid"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

https://bitbucket.org/robvanderg/xsid/src/master/

数据集版本

源版本：0.3.0
SEACrowd 版本：2024.06.20

数据集许可

CC-BY-SA 4.0

引用

如果您在使用 Xsid 数据加载器进行工作，请引用以下内容：

plaintext @inproceedings{van-der-goot-etal-2020-cross, title={From Masked-Language Modeling to Translation: Non-{E}nglish Auxiliary Tasks Improve Zero-shot Spoken Language Understanding}, author={van der Goot, Rob and Sharaf, Ibrahim and Imankulova, Aizhan and {"U}st{"u}n, Ahmet and Stepanovic, Marija and Ramponi, Alan and Khairunnisa, Siti Oryza and Komachi, Mamoru and Plank, Barbara}, booktitle = "Proceedings of the 2021 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)", year = "2021", address = "Mexico City, Mexico", publisher = "Association for Computational Linguistics" }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在跨语言自然语言处理领域，XSID数据集通过精心设计的流程构建而成。该数据集整合了来自6个语系、涵盖13种语言的语料资源，特别纳入了极低资源方言，以增强语言多样性。构建过程中，研究人员采用统一的标注框架，对槽位填充和意图识别任务进行标准化处理，确保跨语言数据的一致性。数据来源于多语言对话语料，经过人工与自动化相结合的标注流程，并经过严格的质量控制，最终形成结构化的基准测试集。

特点

XSID数据集展现出显著的跨语言特性，其覆盖范围广泛，涉及印欧语系、南岛语系等多个语系，为研究语言多样性对自然语言理解的影响提供了丰富素材。数据集特别注重低资源语言的纳入，弥补了传统数据集中资源不平衡的缺陷。在任务设计上，它同时支持意图分类和词性标注，为多任务学习模型提供了验证平台。数据格式规范，兼容主流机器学习框架，便于研究者进行跨语言迁移学习和零样本性能评估。

使用方法

研究者可通过多种技术途径便捷地使用XSID数据集。利用Hugging Face的datasets库，只需调用load_dataset函数并指定数据集名称，即可加载完整数据。对于专注于东南亚语言的研究者，seacrowd库提供了更细粒度的访问方式，允许按配置名称加载特定子集。数据集支持意图分类和词性标注任务的直接训练与评估，用户可依据研究需求选择相应子集进行模型训练、跨语言迁移实验或零样本性能测试，为自然语言理解研究提供标准化基准。

背景与挑战

背景概述

跨语言槽位与意图检测（XSID）数据集由Rob van der Goot等研究人员于2021年提出，旨在构建一个涵盖13种语言、跨越6个语系的多语言基准测试平台，特别纳入了极低资源方言。该数据集的核心研究问题聚焦于解决零样本口语理解任务中跨语言迁移的挑战，通过掩码语言建模与翻译辅助任务提升模型在非英语环境下的性能。XSID的创建推动了自然语言处理领域对多语言语义解析的探索，为东南亚等语言多样性区域的智能对话系统开发提供了关键数据支撑，显著增强了跨语言语义理解模型的泛化能力与实用性。

当前挑战

XSID数据集所针对的领域问题在于跨语言槽位与意图检测，其挑战主要体现在模型需在语言资源极度不均衡的条件下实现准确的语义迁移，尤其对于低资源方言，缺乏足够的标注数据导致模型难以捕捉细微的语义差异。在构建过程中，研究人员面临数据收集与标注的复杂性，需协调多语言专家以确保标注一致性，同时处理不同语系间的结构差异与词汇歧义，这些因素共同增加了数据集的质量控制难度与泛化应用的障碍。

常用场景

经典使用场景

在自然语言处理领域，跨语言槽位填充与意图识别是对话系统理解用户需求的核心任务。XSID数据集作为涵盖13种语言、涉及6个语系的基准，其经典使用场景在于评估和训练多语言模型在零样本或少样本条件下的迁移能力。研究者通过该数据集能够系统分析模型在不同语言间的泛化性能，特别是在资源匮乏的方言上，为跨语言语义解析提供了标准化的评测平台。

衍生相关工作

围绕XSID数据集，学术界衍生了一系列经典研究工作。例如，van der Goot等人（2021）基于此提出了通过掩码语言建模与翻译任务增强零样本口语理解的方法，为跨语言迁移学习提供了新范式。后续研究进一步探索了多任务学习与语言家族表征的优化，推动了低资源语言处理技术的发展。这些工作共同丰富了多语言语义理解的文献体系，并为后续基准构建与模型创新奠定了坚实基础。

数据集最近研究