five

Javanese and Sundanese Story Cloze Dataset

收藏
arXiv2025-02-18 更新2025-02-20 收录
下载链接:
https://huggingface.co/datasets/rifoag/javanese_sundanese_story_cloze
下载链接
链接失效反馈
官方服务:
资源简介:
本研究构建了首个针对爪哇语和巽他语的常识推理数据集。数据集由三种策略生成:一是利用大型语言模型(LLM)辅助生成数据,二是机器翻译,三是母语人士编写的文本。数据集涵盖了1200个高质量的语言模型生成样本、1000个经过人工审查的机器翻译文本和1120个母语人士编写的样本,旨在评估LLM在生成低资源语言推理数据集方面的有效性。

This study constructs the first commonsense reasoning dataset targeting Javanese and Sundanese languages. The dataset is generated via three strategies: firstly, data generation assisted by large language models (LLMs); secondly, machine translation; and thirdly, texts written by native speakers. It comprises 1,200 high-quality LLM-generated samples, 1,000 manually reviewed machine-translated texts, and 1,120 samples authored by native speakers, aiming to evaluate the effectiveness of LLMs in generating commonsense reasoning datasets for low-resource languages.
提供机构:
阿拉伯联合酋长国人工智能大学(MBZUAI)自然语言处理系
创建时间:
2025-02-18
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集采用了三种构建策略:大型语言模型(LLM)辅助数据生成、机器翻译和人类撰写的文本。LLM辅助数据生成使用多个开放和封闭的大型语言模型,如GPT-4o和Claude,通过提供种子示例和预定义主题来生成故事数据。机器翻译策略将现有数据集翻译成爪哇语和巽他语。人类撰写的文本由母语为爪哇语和巽他语的专家撰写,并经过严格的质量控制。
使用方法
使用本数据集的方法包括:1)分类任务:使用LLM生成和机器翻译的数据集进行模型训练,并在人类撰写的测试集上进行评估;2)生成任务:使用LLM生成的数据集进行模型训练,并在自动评估指标(如ROUGE-L和METEOR)上进行评估。
背景与挑战
背景概述
在自然语言处理(NLP)领域,低资源语言(资源匮乏的语言)中的推理能力量化一直是一个挑战。这主要是因为数据稀缺和缺乏标注者。尽管大型语言模型(LLM)辅助的数据集构建在中高资源语言中已被证明是有用的,但在低资源语言中,特别是在常识推理方面,其有效性仍然不清楚。在这篇论文中,我们比较了三种数据集创建策略:(1)LLM辅助数据集生成,(2)机器翻译,和(3)由母语者编写的原始数据,以构建一个具有文化细微差别的故事理解数据集。我们专注于爪哇语和巽他语,这是印度尼西亚的两个主要本地语言,并通过广泛的手动验证评估了开放权重和封闭权重LLM在数据集创建中的有效性。为了评估合成数据的有用性,我们使用此数据对语言模型进行了微调,并在分类和生成任务上进行了评估,并在由母语者编写的测试集上评估了性能。我们的研究结果表明,LLM辅助的数据创建优于机器翻译。
当前挑战
Javanese and Sundanese Story Cloze Dataset面临的主要挑战包括:1)低资源语言中常识推理任务的挑战;2)构建过程中所遇到的挑战。这些挑战包括数据稀缺、标注成本高、难以招募母语者以及缺乏文化相关的文本。此外,LLM在生成故事理解数据集方面的潜力和局限性也需要进一步研究。
常用场景
经典使用场景
Javanese and Sundanese Story Cloze Dataset 是一个为低资源语言构建的文化细微差别常识推理故事理解数据集。该数据集通过使用大型语言模型(LLM)辅助生成数据,并使用机器翻译和人工撰写数据作为对比,评估了LLM在构建低资源语言推理数据集方面的有效性。数据集重点评估LLM在Javanese和Sundanese两种主要印度尼西亚本地语言中的能力,通过广泛的验证评估了开放权重和封闭权重LLM在数据集创建中的辅助效果。
解决学术问题
该数据集解决了低资源语言中推理能力量化的挑战。由于数据稀缺和标注者有限,这一挑战在自然语言处理(NLP)中仍然存在。该数据集通过使用LLM辅助数据创建、机器翻译和人工撰写数据三种策略,构建了一个文化细微差别的故事理解数据集。研究发现,LLM辅助数据创建优于机器翻译,为低资源语言推理数据集的构建提供了新的思路和方法。
实际应用
该数据集的实际应用场景包括自然语言处理中的常识推理任务,如故事理解、代词消解和自然语言推理。此外,该数据集还可以用于训练和评估低资源语言的语言模型,从而提高模型在低资源语言中的表现。
数据集最近研究
最新研究方向
本研究探讨了大型语言模型(LLM)在低资源语言中生成推理数据集的潜力和局限性,特别是针对爪哇语和巽他语这两种在印度尼西亚广泛使用的当地语言。研究者比较了三种数据集创建策略:LLM辅助数据生成、机器翻译和由母语人士撰写的文本,以构建一个具有文化差异的故事理解数据集。通过广泛的手动验证,研究者评估了开放权重和封闭权重LLM在辅助数据集创建中的有效性。为了评估合成数据的有效性,研究者使用这些数据对语言模型进行了微调,并在分类和生成任务上进行了评估。研究结果表明,LLM辅助数据创建优于机器翻译,为低资源语言的推理能力量化提供了新的思路。
相关研究论文
  • 1
    Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages阿拉伯联合酋长国人工智能大学(MBZUAI)自然语言处理系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作