haryoaw/COPAL

Name: haryoaw/COPAL
Creator: haryoaw
Published: 2023-12-10 08:37:55
License: 暂无描述

Hugging Face2023-12-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/haryoaw/COPAL

下载链接

链接失效反馈

官方服务：

资源简介：

COPAL-ID是一个印度尼西亚因果常识推理数据集，旨在捕捉当地文化中的细微差别。数据集由本地人编写和验证，提供了更自然的日常因果推理描述，特别是在雅加达文化圈内。数据集包含三个子类别：本地术语、文化和语言推理。此外，数据集还提供了标准印度尼西亚语和口语印度尼西亚语两种变体，以适应实际使用场景。数据集仅作为测试集使用，旨在作为基准测试。数据集的创建过程经过了严格的数据收集流程，并由熟悉雅加达文化的本地人进行检查。

提供机构：

haryoaw

原始信息汇总

数据集概述

数据集名称

COPAL-ID

数据集描述

COPAL-ID是一个印度尼西亚因果常识推理数据集，捕捉了当地的细微差别。它更自然地描绘了印度尼西亚（尤其是雅加达）文化领域内的日常因果推理。由当地人从头开始编写和验证，COPAL-ID更加流畅，没有翻译的XCOPA-ID中的生硬短语。

数据集类型

测试集，用于基准测试。

语言

印度尼西亚语（id）

数据集大小

n<1K

配置

config_name: id
- split: test
  - path: test_copal.csv
- split: test_colloquial
  - path: test_copal_colloquial.csv

本地细微差别分类

数据集包含三个子类别：本地术语、文化和语言推理。

本地术语：捕捉印度尼西亚人的常识，这些知识对非本地人可能未知或不常见，例如本地食物、公众人物、缩写和其他本地概念。
文化：捕捉印度尼西亚使用的规范。
语言：捕捉语言本身的推理，例如本地习语、修辞手法以及模糊词汇。

口语与标准印度尼西亚语

在日常场景中，几乎没有人使用纯粹正式的印度尼西亚语。然而，许多NLP数据集使用正式的印度尼西亚语。这无疑会导致与实际情况的领域不匹配。为了适应这一点，COPAL-ID以两种变体编写：标准印度尼西亚语和口语印度尼西亚语。如果使用COPAL-ID来基准测试模型，建议测试两种变体。一般来说，口语印度尼西亚语对模型来说更难处理。

数据收集和人类表现

COPAL-ID是通过严格的数据收集流程创建的。每个示例都由习惯于雅加达文化的当地人编写和检查。最后，我们在雅加达本地人中进行了人类基准性能测试，他们在正式和口语印度尼西亚语变体中平均准确率达到了约95%，这表明对于熟悉印度尼西亚文化，尤其是雅加达当地细微差别的人来说，这个数据集非常容易。

限制

印度尼西亚是一个拥有700多种语言和丰富文化的广阔国家。因此，不可能确定单一的文化。我们的数据集专门设计用于捕捉雅加达（首都）的当地细微差别。扩展到印度尼西亚不同地区的细微差别和语言是未来的工作。

引用

@article{wibowo2023copal, title={COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances}, author={Wibowo, Haryo Akbarianto and Fuadi, Erland Hilman and Nityasya, Made Nindyatama and Prasojo, Radityo Eko and Aji, Alham Fikri}, journal={arXiv preprint arXiv:2311.01012}, year={2023} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集