five

haryoaw/COPAL

收藏
Hugging Face2023-12-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haryoaw/COPAL
下载链接
链接失效反馈
官方服务:
资源简介:
COPAL-ID是一个印度尼西亚因果常识推理数据集,旨在捕捉当地文化中的细微差别。数据集由本地人编写和验证,提供了更自然的日常因果推理描述,特别是在雅加达文化圈内。数据集包含三个子类别:本地术语、文化和语言推理。此外,数据集还提供了标准印度尼西亚语和口语印度尼西亚语两种变体,以适应实际使用场景。数据集仅作为测试集使用,旨在作为基准测试。数据集的创建过程经过了严格的数据收集流程,并由熟悉雅加达文化的本地人进行检查。
提供机构:
haryoaw
原始信息汇总

数据集概述

数据集名称

COPAL-ID

数据集描述

COPAL-ID是一个印度尼西亚因果常识推理数据集,捕捉了当地的细微差别。它更自然地描绘了印度尼西亚(尤其是雅加达)文化领域内的日常因果推理。由当地人从头开始编写和验证,COPAL-ID更加流畅,没有翻译的XCOPA-ID中的生硬短语。

数据集类型

测试集,用于基准测试。

语言

印度尼西亚语(id)

数据集大小

n<1K

配置

  • config_name: id
    • split: test
      • path: test_copal.csv
    • split: test_colloquial
      • path: test_copal_colloquial.csv

本地细微差别分类

数据集包含三个子类别:本地术语、文化和语言推理。

  • 本地术语:捕捉印度尼西亚人的常识,这些知识对非本地人可能未知或不常见,例如本地食物、公众人物、缩写和其他本地概念。
  • 文化:捕捉印度尼西亚使用的规范。
  • 语言:捕捉语言本身的推理,例如本地习语、修辞手法以及模糊词汇。

口语与标准印度尼西亚语

在日常场景中,几乎没有人使用纯粹正式的印度尼西亚语。然而,许多NLP数据集使用正式的印度尼西亚语。这无疑会导致与实际情况的领域不匹配。为了适应这一点,COPAL-ID以两种变体编写:标准印度尼西亚语和口语印度尼西亚语。如果使用COPAL-ID来基准测试模型,建议测试两种变体。一般来说,口语印度尼西亚语对模型来说更难处理。

数据收集和人类表现

COPAL-ID是通过严格的数据收集流程创建的。每个示例都由习惯于雅加达文化的当地人编写和检查。最后,我们在雅加达本地人中进行了人类基准性能测试,他们在正式和口语印度尼西亚语变体中平均准确率达到了约95%,这表明对于熟悉印度尼西亚文化,尤其是雅加达当地细微差别的人来说,这个数据集非常容易。

限制

印度尼西亚是一个拥有700多种语言和丰富文化的广阔国家。因此,不可能确定单一的文化。我们的数据集专门设计用于捕捉雅加达(首都)的当地细微差别。扩展到印度尼西亚不同地区的细微差别和语言是未来的工作。

引用

@article{wibowo2023copal, title={COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances}, author={Wibowo, Haryo Akbarianto and Fuadi, Erland Hilman and Nityasya, Made Nindyatama and Prasojo, Radityo Eko and Aji, Alham Fikri}, journal={arXiv preprint arXiv:2311.01012}, year={2023} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作