Javanese and Sundanese Story Cloze Dataset

Name: Javanese and Sundanese Story Cloze Dataset
Creator: 阿拉伯联合酋长国人工智能大学（MBZUAI）自然语言处理系
Published: 2025-02-18 23:14:58
License: 暂无描述

arXiv2025-02-18 更新2025-02-20 收录

下载链接：

https://huggingface.co/datasets/rifoag/javanese_sundanese_story_cloze

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了首个针对爪哇语和巽他语的常识推理数据集。数据集由三种策略生成：一是利用大型语言模型（LLM）辅助生成数据，二是机器翻译，三是母语人士编写的文本。数据集涵盖了1200个高质量的语言模型生成样本、1000个经过人工审查的机器翻译文本和1120个母语人士编写的样本，旨在评估LLM在生成低资源语言推理数据集方面的有效性。

This study constructs the first commonsense reasoning dataset targeting Javanese and Sundanese languages. The dataset is generated via three strategies: firstly, data generation assisted by large language models (LLMs); secondly, machine translation; and thirdly, texts written by native speakers. It comprises 1,200 high-quality LLM-generated samples, 1,000 manually reviewed machine-translated texts, and 1,120 samples authored by native speakers, aiming to evaluate the effectiveness of LLMs in generating commonsense reasoning datasets for low-resource languages.

提供机构：

阿拉伯联合酋长国人工智能大学（MBZUAI）自然语言处理系

创建时间：

2025-02-18

搜集汇总

数据集介绍

构建方式

本数据集采用了三种构建策略：大型语言模型（LLM）辅助数据生成、机器翻译和人类撰写的文本。LLM辅助数据生成使用多个开放和封闭的大型语言模型，如GPT-4o和Claude，通过提供种子示例和预定义主题来生成故事数据。机器翻译策略将现有数据集翻译成爪哇语和巽他语。人类撰写的文本由母语为爪哇语和巽他语的专家撰写，并经过严格的质量控制。

使用方法

使用本数据集的方法包括：1）分类任务：使用LLM生成和机器翻译的数据集进行模型训练，并在人类撰写的测试集上进行评估；2）生成任务：使用LLM生成的数据集进行模型训练，并在自动评估指标（如ROUGE-L和METEOR）上进行评估。

背景与挑战

背景概述

在自然语言处理（NLP）领域，低资源语言（资源匮乏的语言）中的推理能力量化一直是一个挑战。这主要是因为数据稀缺和缺乏标注者。尽管大型语言模型（LLM）辅助的数据集构建在中高资源语言中已被证明是有用的，但在低资源语言中，特别是在常识推理方面，其有效性仍然不清楚。在这篇论文中，我们比较了三种数据集创建策略：（1）LLM辅助数据集生成，（2）机器翻译，和（3）由母语者编写的原始数据，以构建一个具有文化细微差别的故事理解数据集。我们专注于爪哇语和巽他语，这是印度尼西亚的两个主要本地语言，并通过广泛的手动验证评估了开放权重和封闭权重LLM在数据集创建中的有效性。为了评估合成数据的有用性，我们使用此数据对语言模型进行了微调，并在分类和生成任务上进行了评估，并在由母语者编写的测试集上评估了性能。我们的研究结果表明，LLM辅助的数据创建优于机器翻译。

当前挑战

Javanese and Sundanese Story Cloze Dataset面临的主要挑战包括：1）低资源语言中常识推理任务的挑战；2）构建过程中所遇到的挑战。这些挑战包括数据稀缺、标注成本高、难以招募母语者以及缺乏文化相关的文本。此外，LLM在生成故事理解数据集方面的潜力和局限性也需要进一步研究。

常用场景

经典使用场景

Javanese and Sundanese Story Cloze Dataset 是一个为低资源语言构建的文化细微差别常识推理故事理解数据集。该数据集通过使用大型语言模型（LLM）辅助生成数据，并使用机器翻译和人工撰写数据作为对比，评估了LLM在构建低资源语言推理数据集方面的有效性。数据集重点评估LLM在Javanese和Sundanese两种主要印度尼西亚本地语言中的能力，通过广泛的验证评估了开放权重和封闭权重LLM在数据集创建中的辅助效果。

解决学术问题

该数据集解决了低资源语言中推理能力量化的挑战。由于数据稀缺和标注者有限，这一挑战在自然语言处理（NLP）中仍然存在。该数据集通过使用LLM辅助数据创建、机器翻译和人工撰写数据三种策略，构建了一个文化细微差别的故事理解数据集。研究发现，LLM辅助数据创建优于机器翻译，为低资源语言推理数据集的构建提供了新的思路和方法。

实际应用

该数据集的实际应用场景包括自然语言处理中的常识推理任务，如故事理解、代词消解和自然语言推理。此外，该数据集还可以用于训练和评估低资源语言的语言模型，从而提高模型在低资源语言中的表现。

数据集最近研究