five

projecte-aina/PAWS-ca

收藏
Hugging Face2024-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/PAWS-ca
下载链接
链接失效反馈
官方服务:
资源简介:
PAWS-ca数据集(加泰罗尼亚语中的复述对抗词序打乱)是PAWS(Paraphrase Adversaries from Word Scrambling)数据集的加泰罗尼亚语翻译版本,由BSC LangTech Unit委托创建。该数据集包含4000个人工翻译的PAWS对和49000个机器翻译的PAWS对,用于文本分类任务中的复述识别。数据集旨在促进加泰罗尼亚语这一低资源语言的模型开发。
提供机构:
projecte-aina
原始信息汇总

数据集卡片:PAWS-ca(加泰罗尼亚语中的词序混乱的释义对手)

数据集描述

数据集摘要

PAWS-ca数据集(加泰罗尼亚语中的词序混乱的释义对手)是英语PAWS数据集的翻译版本,由BSC LangTech Unit委托翻译。该数据集包含4,000个人工翻译的PAWS对和49,000个机器翻译的对。

支持的任务和排行榜

  • 释义识别
  • 语言模型

语言

数据集使用加泰罗尼亚语(ca-ES)。

数据集结构

数据实例

数据集包含三个JSON文件,分别对应训练集、验证集和测试集。

示例:

json { "id": 38, "sentence1": "Holly estava influenciat musicalment per Elton John.", "sentence2": "Holly Holly va ser influenciada musicalment per Elton John.", "label": 1 } { "id": 39, "sentence1": "L’equip va respondre als canvis en el següent partit el mateix vespre del 19 de febrer.", "sentence2": "Lequip va respondre als canvis en el mateix partit d’aquell següent 19 de febrer al vespre.", "label": 0 }

数据字段

  • id: 与英语PAWS数据集源对的ID匹配的ID
  • sentence1: 第一句话
  • sentence2: 第二句话
  • label: 每对的标签

数据分割

  • paws-ca.train.jsonl: 49,401个示例
  • paws-ca.val.jsonl: 2,000个示例
  • paws-ca.test.jsonl: 2,000个示例

注意: 请注意,PAWS-X的开发集和测试集均来自PAWS-Wiki的开发集。因此,相同的sentence 1可能出现在开发集和测试集中。尽管如此,我们的数据分割保证开发集和测试集之间没有重叠的句子对(sentence 1 + sentence 2)。

数据集创建

策划理由

我们创建此数据集是为了促进加泰罗尼亚语(一种低资源语言)的语言模型发展。

源数据

PAWS(词序混乱的释义对手)

初始数据收集和规范化

该数据集是英语PAWS数据集的翻译版本,由BSC LangTech Unit在Aina项目中委托翻译。

源语言生产者

有关PAWS创建的更多信息,请参阅论文或访问PAWS的网页。

注释

注释过程

[N/A]

注释者

这是英语PAWS数据集及其注释的翻译。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

我们希望此数据集有助于加泰罗尼亚语(一种低资源语言)的语言模型发展。

偏见的讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策展人

巴塞罗那超级计算中心的语言技术单元(langtech@bsc.es)

这项工作得到了加泰罗尼亚政府的推广和资助,通过Aina项目(https://projecteaina.cat/)。

许可信息

原始PAWS-X许可证:

该数据集可自由用于任何目的,只要对Google LLC作为数据源表示感谢即可。该数据集按“原样”提供,不附带任何明示或暗示的保证。Google不承担因使用该数据集而导致的任何直接或间接损害的责任。

PAWS-ca:

Creative Commons Attribution 4.0 International

引用信息

bibtex @inproceedings{gonzalez-agirre-etal-2024-building-data, title = "Building a Data Infrastructure for a Mid-Resource Language: The Case of {C}atalan", author = "Gonzalez-Agirre, Aitor and Marimon, Montserrat and Rodriguez-Penagos, Carlos and Aula-Blasco, Javier and Baucells, Irene and Armentano-Oller, Carme and Palomar-Giner, Jorge and Kulebi, Baybars and Villegas, Marta", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.231", pages = "2556--2566", }

贡献

[N/A]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作