projecte-aina/PAWS-ca
收藏数据集卡片:PAWS-ca(加泰罗尼亚语中的词序混乱的释义对手)
数据集描述
数据集摘要
PAWS-ca数据集(加泰罗尼亚语中的词序混乱的释义对手)是英语PAWS数据集的翻译版本,由BSC LangTech Unit委托翻译。该数据集包含4,000个人工翻译的PAWS对和49,000个机器翻译的对。
支持的任务和排行榜
- 释义识别
- 语言模型
语言
数据集使用加泰罗尼亚语(ca-ES)。
数据集结构
数据实例
数据集包含三个JSON文件,分别对应训练集、验证集和测试集。
示例:
json { "id": 38, "sentence1": "Holly estava influenciat musicalment per Elton John.", "sentence2": "Holly Holly va ser influenciada musicalment per Elton John.", "label": 1 } { "id": 39, "sentence1": "L’equip va respondre als canvis en el següent partit el mateix vespre del 19 de febrer.", "sentence2": "Lequip va respondre als canvis en el mateix partit d’aquell següent 19 de febrer al vespre.", "label": 0 }
数据字段
id: 与英语PAWS数据集源对的ID匹配的IDsentence1: 第一句话sentence2: 第二句话label: 每对的标签
数据分割
paws-ca.train.jsonl: 49,401个示例paws-ca.val.jsonl: 2,000个示例paws-ca.test.jsonl: 2,000个示例
注意: 请注意,PAWS-X的开发集和测试集均来自PAWS-Wiki的开发集。因此,相同的
sentence 1可能出现在开发集和测试集中。尽管如此,我们的数据分割保证开发集和测试集之间没有重叠的句子对(sentence 1+sentence 2)。
数据集创建
策划理由
我们创建此数据集是为了促进加泰罗尼亚语(一种低资源语言)的语言模型发展。
源数据
PAWS(词序混乱的释义对手)
初始数据收集和规范化
该数据集是英语PAWS数据集的翻译版本,由BSC LangTech Unit在Aina项目中委托翻译。
源语言生产者
有关PAWS创建的更多信息,请参阅论文或访问PAWS的网页。
注释
注释过程
[N/A]
注释者
这是英语PAWS数据集及其注释的翻译。
个人和敏感信息
不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
我们希望此数据集有助于加泰罗尼亚语(一种低资源语言)的语言模型发展。
偏见的讨论
[N/A]
其他已知限制
[N/A]
附加信息
数据集策展人
巴塞罗那超级计算中心的语言技术单元(langtech@bsc.es)
这项工作得到了加泰罗尼亚政府的推广和资助,通过Aina项目(https://projecteaina.cat/)。
许可信息
原始PAWS-X许可证:
该数据集可自由用于任何目的,只要对Google LLC作为数据源表示感谢即可。该数据集按“原样”提供,不附带任何明示或暗示的保证。Google不承担因使用该数据集而导致的任何直接或间接损害的责任。
PAWS-ca:
Creative Commons Attribution 4.0 International。
引用信息
bibtex @inproceedings{gonzalez-agirre-etal-2024-building-data, title = "Building a Data Infrastructure for a Mid-Resource Language: The Case of {C}atalan", author = "Gonzalez-Agirre, Aitor and Marimon, Montserrat and Rodriguez-Penagos, Carlos and Aula-Blasco, Javier and Baucells, Irene and Armentano-Oller, Carme and Palomar-Giner, Jorge and Kulebi, Baybars and Villegas, Marta", editor = "Calzolari, Nicoletta and Kan, Min-Yen and Hoste, Veronique and Lenci, Alessandro and Sakti, Sakriani and Xue, Nianwen", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.231", pages = "2556--2566", }
贡献
[N/A]



