projecte-aina/teca
收藏数据集卡片 for TE-ca
数据集描述
数据集概述
TE-ca 是一个加泰罗尼亚语的文本蕴含数据集,包含 21,163 对前提和假设,根据它们之间的推理关系(蕴含、矛盾或中性)进行标注。
该数据集由 BSC TeMU 开发,作为 Projecte AINA 的一部分,旨在丰富 加泰罗尼亚语理解基准 (CLUB)。
该工作遵循 <a rel="license" href="https://creativecommons.org/licenses/by-nc-nd/4.0/">Attribution-NonCommercial-NoDerivatives 4.0 International License</a> 许可。
支持的任务和排行榜
文本蕴含、文本分类、语言模型
语言
数据集使用加泰罗尼亚语 (ca-ES)。
数据集结构
数据实例
三个 JSON 文件,分别对应不同的数据集划分。
示例:
json { "id": 3247, "premise": "LONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "Sacorden unes recomanacions per les persones migrades a Marràqueix", "label": "0" }, { "id": 2825, "premise": "LONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "Les persones migrades seran acollides a Marràqueix", "label": "1" }, { "id": 2431, "premise": "LONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "Lacord impulsat per lONU lluny de tancar-se", "label": "2" }
数据字段
- premise: 文本
- hypothesis: 与前提相关的文本
- label: 前提和假设之间的关系:
- 0: 蕴含
- 1: 中性
- 2: 矛盾
数据划分
- dev.json: 2116 个样本
- test.json: 2117 个样本
- train.json: 16930 个样本
数据集创建
策划理由
我们创建这个数据集是为了促进加泰罗尼亚语这种低资源语言的语言模型开发。
源数据
源句子来自 加泰罗尼亚文本语料库 和 VilaWeb 新闻网站。
初始数据收集和规范化
从 BSC 加泰罗尼亚文本语料库 中随机选择了 12000 个句子,以及从加泰罗尼亚新闻网站 VilaWeb 中选择了 6200 个标题。我们根据长度和独立可理解性等不同标准进行过滤。对于每个选定的文本,我们委托一个由母语标注者组成的团队编写 3 个假设(每个蕴含类别一个)。
由于不一致性,一些句子对被排除。
源语言生产者是谁?
加泰罗尼亚文本语料库由从网络爬取和公共语料库中收集的多个语料库组成。更多信息可以在 这里 找到。
VilaWeb 是一个加泰罗尼亚新闻网站。
标注
标注过程
我们委托一个标注团队编写 3 个假设(每个蕴含类别一个)。
标注者是谁?
标注者是由两个独立公司的母语合作者组成的团队。
个人和敏感信息
数据集中不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
我们希望这个数据集有助于加泰罗尼亚语这种低资源语言的语言模型开发。
讨论偏见
[N/A]
其他已知限制
[N/A]
附加信息
数据集策展人
文本挖掘单元 (TeMU) 在巴塞罗那超级计算中心 (bsc-temu@bsc.es)
该工作由 [加泰罗尼亚政府数字和领土政策副主席部门](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 资助,作为 Projecte AINA 框架的一部分。
许可信息
该工作遵循 <a rel="license" href="https://creativecommons.org/licenses/by-nc-nd/4.0/">Attribution-NonCommercial-NoDerivatives 4.0 International License</a> 许可。
引用信息
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }




