projecte-aina/PAWS-ca

Name: projecte-aina/PAWS-ca
Creator: projecte-aina
Published: 2024-10-25 09:13:29
License: 暂无描述

Hugging Face2024-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/PAWS-ca

下载链接

链接失效反馈

官方服务：

资源简介：

PAWS-ca数据集（加泰罗尼亚语中的复述对抗词序打乱）是PAWS（Paraphrase Adversaries from Word Scrambling）数据集的加泰罗尼亚语翻译版本，由BSC LangTech Unit委托创建。该数据集包含4000个人工翻译的PAWS对和49000个机器翻译的PAWS对，用于文本分类任务中的复述识别。数据集旨在促进加泰罗尼亚语这一低资源语言的模型开发。

提供机构：

projecte-aina

原始信息汇总

数据集卡片：PAWS-ca（加泰罗尼亚语中的词序混乱的释义对手）

数据集描述

数据集摘要

PAWS-ca数据集（加泰罗尼亚语中的词序混乱的释义对手）是英语PAWS数据集的翻译版本，由BSC LangTech Unit委托翻译。该数据集包含4,000个人工翻译的PAWS对和49,000个机器翻译的对。

支持的任务和排行榜

释义识别
语言模型

语言

数据集使用加泰罗尼亚语（ca-ES）。

数据集结构

数据实例

数据集包含三个JSON文件，分别对应训练集、验证集和测试集。

示例：

json { "id": 38, "sentence1": "Holly estava influenciat musicalment per Elton John.", "sentence2": "Holly Holly va ser influenciada musicalment per Elton John.", "label": 1 } { "id": 39, "sentence1": "L’equip va respondre als canvis en el següent partit el mateix vespre del 19 de febrer.", "sentence2": "Lequip va respondre als canvis en el mateix partit d’aquell següent 19 de febrer al vespre.", "label": 0 }

数据字段

id: 与英语PAWS数据集源对的ID匹配的ID
sentence1: 第一句话
sentence2: 第二句话
label: 每对的标签

数据分割

paws-ca.train.jsonl: 49,401个示例
paws-ca.val.jsonl: 2,000个示例
paws-ca.test.jsonl: 2,000个示例

注意: 请注意，PAWS-X的开发集和测试集均来自PAWS-Wiki的开发集。因此，相同的sentence 1可能出现在开发集和测试集中。尽管如此，我们的数据分割保证开发集和测试集之间没有重叠的句子对（sentence 1 + sentence 2）。

数据集创建

策划理由

我们创建此数据集是为了促进加泰罗尼亚语（一种低资源语言）的语言模型发展。

源数据

PAWS（词序混乱的释义对手）

初始数据收集和规范化

该数据集是英语PAWS数据集的翻译版本，由BSC LangTech Unit在Aina项目中委托翻译。

源语言生产者

有关PAWS创建的更多信息，请参阅论文或访问PAWS的网页。

注释

注释过程

[N/A]

注释者

这是英语PAWS数据集及其注释的翻译。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

我们希望此数据集有助于加泰罗尼亚语（一种低资源语言）的语言模型发展。

偏见的讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策展人

巴塞罗那超级计算中心的语言技术单元（langtech@bsc.es）

这项工作得到了加泰罗尼亚政府的推广和资助，通过Aina项目（https://projecteaina.cat/）。

许可信息

原始PAWS-X许可证：

该数据集可自由用于任何目的，只要对Google LLC作为数据源表示感谢即可。该数据集按“原样”提供，不附带任何明示或暗示的保证。Google不承担因使用该数据集而导致的任何直接或间接损害的责任。

PAWS-ca：

Creative Commons Attribution 4.0 International。

引用信息

bibtex @inproceedings{gonzalez-agirre-etal-2024-building-data, title = "Building a Data Infrastructure for a Mid-Resource Language: The Case of {C}atalan", author = "Gonzalez-Agirre, Aitor and Marimon, Montserrat and Rodriguez-Penagos, Carlos and Aula-Blasco, Javier and Baucells, Irene and Armentano-Oller, Carme and Palomar-Giner, Jorge and Kulebi, Baybars and Villegas, Marta", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.231", pages = "2556--2566", }

贡献

[N/A]

5,000+

优质数据集

54 个

任务类型

进入经典数据集