SEACrowd

Name: SEACrowd
Creator: AI Singapore
Published: 2024-06-14 23:23:39
License: 暂无描述

arXiv2024-06-14 更新2024-06-18 收录

下载链接：

https://seacrowd.github.io/seacrowd-catalogue/

下载链接

链接失效反馈

官方服务：

资源简介：

SEACrowd是一个针对东南亚语言的多语言多模态数据集，由AI新加坡等机构合作创建。该数据集包含近1000种东南亚语言的文本、图像和音频数据，总计498个数据集。创建过程中，通过标准化数据加载器和数据表单，确保数据的可访问性和一致性。SEACrowd旨在解决东南亚语言在AI模型中代表性不足的问题，支持包括自然语言处理、视觉语言和语音识别在内的多种应用，以促进该地区AI技术的发展和语言多样性的保护。

SEACrowd is a multilingual and multimodal dataset focused on Southeast Asian languages, co-created by institutions such as AI Singapore and other collaborating partners. It encompasses text, image and audio data spanning nearly 1,000 Southeast Asian languages, totaling 498 datasets. During its development, standardized data loaders and data sheets were adopted to ensure data accessibility and consistency. SEACrowd aims to address the underrepresentation of Southeast Asian languages in AI models, and supports a range of applications including natural language processing, vision-language tasks and speech recognition, so as to promote the development of AI technology in the region and the preservation of linguistic diversity.

提供机构：

AI Singapore

创建时间：

2024-06-14

搜集汇总

数据集介绍

构建方式

SEACrowd数据集的构建依托于东南亚地区研究者的协作努力，通过系统化收集与标准化处理，整合了近千种东南亚语言的语料资源。构建过程首先邀请贡献者提交涵盖文本、音频和图像模态的公开数据集数据表，详细记录数据子集、任务类型、语言、许可证及标注方法等元信息。随后，团队对提交内容进行人工核验与修正，确保数据表的准确性。在此基础上，为每个获批的数据表创建标准化的数据加载器，统一数据访问接口，并设计支持多模态任务的seacrowd模式，以促进数据的便捷使用与跨任务兼容。最终，该数据集汇集了498个数据表与399个数据加载器，覆盖约1000种东南亚语言，显著提升了资源的可发现性与可用性。

特点

SEACrowd数据集的核心特点在于其广泛的语言覆盖与多模态整合能力。该数据集囊括了东南亚地区近千种本土语言，尤其关注资源匮乏的语言变体，填补了该区域在人工智能数据资源方面的显著空白。其模态多样性突出，涵盖文本、视觉语言和语音数据，其中文本数据占比约81%，视觉语言与语音数据分别约占8%和11%，支持83种任务类型，包括自然语言理解、图像描述生成及自动语音识别等。此外，数据集注重标注质量与文化相关性，约62.4%的数据集经过完整的人工验证，并特别收录了源自本地新闻与社会媒体的语料，以增强文化代表性。数据集的标准化架构与开放许可策略进一步促进了学术与工业界的协作应用。

使用方法

SEACrowd数据集的使用主要通过其两大平台实现：SEACrowd Catalogue用于浏览与检索数据表的元信息，而SEACrowd Data Hub则提供标准化的数据加载器与seacrowd库，支持多数据集的高效加载。研究人员可依据任务需求，在Catalogue中筛选特定语言、模态或任务的数据子集，并通过Data Hub的标准化接口直接访问数据，无需处理原始格式的异构性。数据集适用于模型预训练、跨语言评估及多模态学习等场景，例如利用其基准测试套件评估大语言模型在36种东南亚语言上的性能。使用过程中需遵循数据来源的许可协议，并参考数据表中注明的标注方法以确保应用场景的合规性。

背景与挑战

背景概述

SEACrowd数据集于2024年由东南亚地区多国研究机构联合创建，旨在应对该区域人工智能发展中面临的语言资源匮乏问题。东南亚拥有超过1300种本土语言和6.71亿人口，但现有预训练模型严重缺乏该地区的文本、图像和语音数据表示，导致面向东南亚语言的AI模型质量受限。该数据集通过整合近千种语言的标准化语料库，构建了涵盖文本、图像和语音三种模态的资源中心，并设计了包含13类任务的基准测试套件，为评估36种本土语言的AI模型性能提供了系统化工具。这项由AI Singapore和IndoNLP等机构主导的协作倡议，显著推动了东南亚语言计算语言学研究的资源标准化进程。

当前挑战

SEACrowd面临的挑战主要体现在两个方面：在领域问题层面，需解决东南亚语言在机器翻译、情感分析、语音识别等任务中因训练数据稀缺导致的表现退化问题，特别是小语种和方言在跨模态任务中的表征学习难题；在构建过程中，需克服近千种语言数据分散、标注质量参差、文化背景多样带来的标准化困难，同时应对低资源语言数据采集的技术障碍与伦理规范之间的平衡挑战。此外，数据集中约70%的语料缺乏文化相关性，多数为英语语料机器翻译所得，难以捕捉本土语言的文化细微差异。

常用场景

经典使用场景

在东南亚语言人工智能研究领域，SEACrowd数据集作为多模态多语言资源中心，其经典使用场景主要体现在为区域语言模型提供标准化评估基准。该数据集整合了涵盖文本、语音和视觉三大模态的标准化语料，支持研究者对现有大语言模型、视觉语言模型及语音模型在东南亚本土语言上的零样本泛化能力进行系统性评测。通过构建覆盖36种土著语言的13项任务基准，SEACrowd使得学术界能够首次在统一框架下衡量模型在低资源语言上的真实性能，为跨语言迁移研究提供了关键实验平台。

衍生相关工作

SEACrowd的发布催生了系列重要衍生研究：基于其评估框架，学者们开发了SEA-LION、Sailor等区域性大语言模型，专门针对东南亚语言特性进行优化；在语音技术领域，该数据集支撑了针对印尼方言的Whisper模型微调研究，显著提升了自动语音识别在低资源语言上的准确率；文化计算方向的研究者利用其中的文化相关子集，开展了语言模型文化价值观对齐的实证分析。这些工作共同构成了东南亚语言人工智能研究的新兴范式，推动了资源建设、模型开发与应用落地的协同发展。

数据集最近研究