haryoaw/COPAL
收藏数据集概述
数据集名称
COPAL-ID
数据集描述
COPAL-ID是一个印度尼西亚因果常识推理数据集,捕捉了当地的细微差别。它更自然地描绘了印度尼西亚(尤其是雅加达)文化领域内的日常因果推理。由当地人从头开始编写和验证,COPAL-ID更加流畅,没有翻译的XCOPA-ID中的生硬短语。
数据集类型
测试集,用于基准测试。
语言
印度尼西亚语(id)
数据集大小
n<1K
配置
config_name: idsplit: testpath: test_copal.csv
split: test_colloquialpath: test_copal_colloquial.csv
本地细微差别分类
数据集包含三个子类别:本地术语、文化和语言推理。
- 本地术语:捕捉印度尼西亚人的常识,这些知识对非本地人可能未知或不常见,例如本地食物、公众人物、缩写和其他本地概念。
- 文化:捕捉印度尼西亚使用的规范。
- 语言:捕捉语言本身的推理,例如本地习语、修辞手法以及模糊词汇。
口语与标准印度尼西亚语
在日常场景中,几乎没有人使用纯粹正式的印度尼西亚语。然而,许多NLP数据集使用正式的印度尼西亚语。这无疑会导致与实际情况的领域不匹配。为了适应这一点,COPAL-ID以两种变体编写:标准印度尼西亚语和口语印度尼西亚语。如果使用COPAL-ID来基准测试模型,建议测试两种变体。一般来说,口语印度尼西亚语对模型来说更难处理。
数据收集和人类表现
COPAL-ID是通过严格的数据收集流程创建的。每个示例都由习惯于雅加达文化的当地人编写和检查。最后,我们在雅加达本地人中进行了人类基准性能测试,他们在正式和口语印度尼西亚语变体中平均准确率达到了约95%,这表明对于熟悉印度尼西亚文化,尤其是雅加达当地细微差别的人来说,这个数据集非常容易。
限制
印度尼西亚是一个拥有700多种语言和丰富文化的广阔国家。因此,不可能确定单一的文化。我们的数据集专门设计用于捕捉雅加达(首都)的当地细微差别。扩展到印度尼西亚不同地区的细微差别和语言是未来的工作。
引用
@article{wibowo2023copal, title={COPAL-ID: Indonesian Language Reasoning with Local Culture and Nuances}, author={Wibowo, Haryo Akbarianto and Fuadi, Erland Hilman and Nityasya, Made Nindyatama and Prasojo, Radityo Eko and Aji, Alham Fikri}, journal={arXiv preprint arXiv:2311.01012}, year={2023} }



