SEACrowd/xcopa

Name: SEACrowd/xcopa
Creator: SEACrowd
Published: 2024-06-24 13:29:58
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/xcopa

下载链接

链接失效反馈

官方服务：

资源简介：

XCOPA是一个多语言数据集，用于评估机器学习模型在跨语言常识推理能力。该数据集是英文COPA（Roemmele et al. 2011）的翻译和重新注释版本，涵盖了11种语言，这些语言来自11个语系，并分布在全球多个地区。该数据集具有挑战性，因为它既需要掌握世界知识，又需要具备跨语言泛化的能力。

XCOPA is a multilingual dataset intended to evaluate machine learning models' cross-lingual commonsense reasoning abilities. Derived from the translated and reannotated version of the English COPA dataset (Roemmele et al. 2011), this dataset covers 11 languages from 11 language families, spanning multiple regions across the globe. It is a challenging dataset, as it requires both mastery of world knowledge and the capacity for cross-lingual generalization.

提供机构：

SEACrowd

原始信息汇总

XCOPA 数据集概述

数据集简介

XCOPA（Cross-lingual Choice of Plausible Alternatives）是一个多语言因果常识推理数据集，旨在评估机器学习模型跨语言转移常识推理的能力。该数据集是英语COPA数据集的翻译和重新注释，涵盖了来自11个语系和全球多个地区的11种语言。XCOPA数据集具有挑战性，因为它不仅需要世界知识，还需要泛化到新语言的能力。

支持的语言

印度尼西亚语 (ind)
泰语 (tha)
越南语 (vie)

支持的任务

常识推理

数据集版本

源版本: 1.0.0
SEACrowd版本: 2024.06.20

数据集许可证

Creative Commons Attribution 4.0 (cc-by-4.0)

引用

如果您在使用XCOPA数据集，请引用以下文献：

@inproceedings{ponti2020xcopa, title={{XCOPA: A} Multilingual Dataset for Causal Commonsense Reasoning}, author={Edoardo M. Ponti, Goran Glavaš, Olga Majewska, Qianchu Liu, Ivan Vulić and Anna Korhonen}, booktitle={Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)}, year={2020}, url={https://ducdauge.github.io/files/xcopa.pdf} } @inproceedings{roemmele2011choice, title={Choice of plausible alternatives: An evaluation of commonsense causal reasoning}, author={Roemmele, Melissa and Bejan, Cosmin Adrian and Gordon, Andrew S}, booktitle={2011 AAAI Spring Symposium Series}, year={2011}, url={https://people.ict.usc.edu/~gordon/publications/AAAI-SPRING11A.PDF}, }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

SEACrowd/xcopa数据集是一项旨在评估机器学习模型跨语言常识推理能力的基准。该数据集是对英语COPA数据集的翻译和重新注释，涵盖全球11个语系中的11种语言。其构建过程涉及对原始COPA数据集的深度理解和多语言转换，不仅要求研究者具备丰富的世界知识，还需具备将推理能力泛化至新语言的能力。构建细节及基线实施均在相关论文中有所阐述。

使用方法

使用SEACrowd/xcopa数据集，研究者可以通过`datasets`库或`seacrowd`库加载。前者提供了简单的接口，后者则允许通过配置文件加载不同子集。具体使用时，可根据研究需求选择合适的方法加载数据集，进而进行模型训练、评估等操作。详细的加载指南和示例代码可在数据集的官方文档中找到。

背景与挑战

背景概述

SEACrowd/xcopa数据集，全称为Cross-lingual Choice of Plausible Alternatives，旨在评估机器学习模型跨语言进行常识推理的能力。该数据集是英语COPA数据集（Roemmele et al. 2011）的翻译和重新注释版本，涵盖了11种语言，分属11个语系，遍布全球多个地区。SEACrowd/xcopa数据集的创建，汇集了Edoardo M. Ponti等研究人员的智慧，对推动多语言常识推理领域的研究具有重要意义。

当前挑战

该数据集在构建和应用过程中面临诸多挑战：首先，它要求模型掌握丰富的世界知识，并能将这些知识泛化到新的语言中；其次，跨语言的数据翻译和重新注释工作复杂，需要克服语言和文化差异带来的障碍；最后，该数据集在评估模型性能时，如何保证跨语言推理的公正性和准确性，是当前研究的热点问题。

常用场景

经典使用场景

在人工智能领域，尤其是自然语言处理任务中，评估模型跨语言进行常识推理的能力至关重要。XCOPA数据集为此提供了基准，其经典的使用场景在于训练和评估机器学习模型在多种语言环境下进行因果推理的能力，以检验其在不同语言间的迁移性。

解决学术问题

XCOPA数据集解决了学术研究中如何衡量和提升模型在跨语言环境下常识推理能力的问题，这对于构建能够理解和处理多语言信息的智能系统具有重要意义。该数据集的创建和使用，为研究提供了新的方法和工具，有助于推动多语言自然语言处理领域的发展。

实际应用

在实际应用中，XCOPA数据集可以被用来开发和优化多语言智能助手、翻译系统以及跨语言信息检索系统。这些系统的性能提升将有助于提高全球化背景下信息交流的效率和准确性。

数据集最近研究