projecte-aina/teca

Name: projecte-aina/teca
Creator: projecte-aina
Published: 2025-03-19 10:02:51
License: 暂无描述

Hugging Face2025-03-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/teca

下载链接

链接失效反馈

官方服务：

资源简介：

TE-ca是一个加泰罗尼亚语的文本蕴含数据集，包含21,163对前提和假设，标注了它们之间的推理关系（蕴含、矛盾或中立）。该数据集由BSC TeMU开发，作为Projecte AINA的一部分，旨在丰富加泰罗尼亚语言理解基准（CLUB）。数据集的结构包括三个JSON文件，分别对应训练、验证和测试集。每个数据实例包含前提、假设和标签字段。数据集的创建目的是为了促进加泰罗尼亚语这种低资源语言的语言模型发展。数据来源包括加泰罗尼亚语文本语料库和VilaWeb新闻网站。数据集的使用许可为CC BY-NC-ND 4.0。

TE-ca is a dataset of textual entailment in Catalan, which contains 21,163 pairs of premises and hypotheses, annotated according to the inference relation they have (implication, contradiction or neutral). This dataset was developed by BSC TeMU as part of Projecte AINA, to enrich the Catalan Language Understanding Benchmark (CLUB). The dataset structure includes three JSON files, corresponding to the training, validation, and test sets. Each data instance contains fields for premise, hypothesis, and label. The dataset was created to contribute to the development of language models in Catalan, a low-resource language. The data sources include the Catalan Textual Corpus and the VilaWeb newswire. The dataset is licensed under CC BY-NC-ND 4.0.

提供机构：

projecte-aina

原始信息汇总

数据集卡片 for TE-ca

数据集描述

数据集概述

TE-ca 是一个加泰罗尼亚语的文本蕴含数据集，包含 21,163 对前提和假设，根据它们之间的推理关系（蕴含、矛盾或中性）进行标注。

该数据集由 BSC TeMU 开发，作为 Projecte AINA 的一部分，旨在丰富加泰罗尼亚语理解基准 (CLUB)。

该工作遵循 <a rel="license" href="https://creativecommons.org/licenses/by-nc-nd/4.0/">Attribution-NonCommercial-NoDerivatives 4.0 International License</a> 许可。

支持的任务和排行榜

文本蕴含、文本分类、语言模型

语言

数据集使用加泰罗尼亚语 (ca-ES)。

数据集结构

数据实例

三个 JSON 文件，分别对应不同的数据集划分。

示例：

json { "id": 3247, "premise": "LONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "Sacorden unes recomanacions per les persones migrades a Marràqueix", "label": "0" }, { "id": 2825, "premise": "LONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "Les persones migrades seran acollides a Marràqueix", "label": "1" }, { "id": 2431, "premise": "LONU adopta a Marràqueix un pacte no vinculant per les migracions", "hypothesis": "Lacord impulsat per lONU lluny de tancar-se", "label": "2" }

数据字段

premise: 文本
hypothesis: 与前提相关的文本
label: 前提和假设之间的关系：
- 0: 蕴含
- 1: 中性
- 2: 矛盾

数据划分

dev.json: 2116 个样本
test.json: 2117 个样本
train.json: 16930 个样本

数据集创建

策划理由

我们创建这个数据集是为了促进加泰罗尼亚语这种低资源语言的语言模型开发。

源数据

源句子来自加泰罗尼亚文本语料库和 VilaWeb 新闻网站。

初始数据收集和规范化

从 BSC 加泰罗尼亚文本语料库中随机选择了 12000 个句子，以及从加泰罗尼亚新闻网站 VilaWeb 中选择了 6200 个标题。我们根据长度和独立可理解性等不同标准进行过滤。对于每个选定的文本，我们委托一个由母语标注者组成的团队编写 3 个假设（每个蕴含类别一个）。

由于不一致性，一些句子对被排除。

源语言生产者是谁？

加泰罗尼亚文本语料库由从网络爬取和公共语料库中收集的多个语料库组成。更多信息可以在这里找到。

VilaWeb 是一个加泰罗尼亚新闻网站。

标注

标注过程

我们委托一个标注团队编写 3 个假设（每个蕴含类别一个）。

标注者是谁？

标注者是由两个独立公司的母语合作者组成的团队。

个人和敏感信息

数据集中不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

我们希望这个数据集有助于加泰罗尼亚语这种低资源语言的语言模型开发。

讨论偏见

[N/A]

其他已知限制

[N/A]

附加信息

数据集策展人

文本挖掘单元 (TeMU) 在巴塞罗那超级计算中心 (bsc-temu@bsc.es)

该工作由 [加泰罗尼亚政府数字和领土政策副主席部门](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en) 资助，作为 Projecte AINA 框架的一部分。

许可信息

该工作遵循 <a rel="license" href="https://creativecommons.org/licenses/by-nc-nd/4.0/">Attribution-NonCommercial-NoDerivatives 4.0 International License</a> 许可。

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }

DOI

搜集汇总

数据集介绍

构建方式

TE-ca数据集的构建过程始于从[Catalan Textual Corpus](https://doi.org/10.5281/zenodo.4519349)和[VilaWeb](https://www.vilaweb.cat)新闻网站中随机选取的12,000个句子和6,200个标题。这些文本经过长度和可理解性等标准的筛选后，由一组母语为加泰罗尼亚语的标注者为每个选定的文本编写三个假设，分别对应于蕴含、中性和矛盾三种关系。部分不一致的句子对被排除，最终形成了包含21,163对前提和假设的数据集。

特点

TE-ca数据集的主要特点在于其专注于加泰罗尼亚语（Catalan）这一低资源语言，旨在丰富加泰罗尼亚语理解基准（CLUB）。数据集中的每个前提文本都配有三个假设，分别标注为蕴含、中性和矛盾，这种结构有助于模型在自然语言推理任务中进行训练和评估。此外，数据集的标注由专业的母语标注者完成，确保了标注质量的高标准。

使用方法

TE-ca数据集适用于自然语言推理和文本分类任务，特别适合于加泰罗尼亚语的语言模型训练。用户可以通过加载数据集的JSON文件，分别获取训练、验证和测试集。每个数据实例包含一个前提文本、一个相关假设以及一个标注标签，标签指示前提与假设之间的关系（蕴含、中性或矛盾）。使用时，建议结合加泰罗尼亚语的语言特性进行模型调优，以最大化数据集的价值。

背景与挑战

背景概述

TE-ca数据集是由巴塞罗那超级计算中心（BSC TeMU）开发的文本蕴含数据集，专门用于加泰罗尼亚语（Catalan）。该数据集包含21,163对前提和假设，标注了它们之间的推理关系（蕴含、矛盾或中性）。TE-ca数据集的创建旨在丰富加泰罗尼亚语理解基准（CLUB），并作为Projecte AINA项目的一部分，致力于提升低资源语言的自然语言处理能力。该数据集的开发团队通过从加泰罗尼亚文本语料库和VilaWeb新闻网站中提取句子，并由专业标注团队生成假设，最终形成了这一高质量的文本蕴含数据集。

当前挑战

TE-ca数据集在构建过程中面临的主要挑战包括：首先，加泰罗尼亚语作为一种低资源语言，其语料库的规模和多样性有限，这增加了数据收集和标注的难度。其次，确保标注的一致性和准确性也是一个重要挑战，因为这直接影响到模型的训练效果。此外，如何在有限的资源下，有效地利用和扩展这一数据集，以提升加泰罗尼亚语的自然语言处理能力，也是当前研究的一个重要方向。

常用场景

经典使用场景

在自然语言处理领域，TE-ca数据集的经典使用场景主要集中在文本蕴含任务中。该数据集通过提供大量的前提和假设对，并标注其蕴含关系（蕴含、中性或矛盾），为研究者和开发者提供了一个丰富的资源，用于训练和评估文本蕴含模型。这些模型在理解文本间的逻辑关系和推理能力方面具有重要应用，尤其是在低资源语言如加泰罗尼亚语的处理中。

实际应用

在实际应用中，TE-ca数据集支持了多种语言处理任务，如信息检索、问答系统和自动摘要等。通过增强文本蕴含模型的能力，该数据集有助于提高这些系统在加泰罗尼亚语环境下的准确性和效率。此外，它还为跨语言的文本分析和比较提供了基础，促进了多语言信息处理的实际应用和创新。

衍生相关工作

TE-ca数据集的发布催生了一系列相关研究和工作，特别是在加泰罗尼亚语和其他低资源语言的模型评估和改进方面。例如，研究者们利用该数据集进行了多语言模型的比较研究，探讨了单一语言模型与多语言模型在处理加泰罗尼亚语时的性能差异。此外，该数据集还激发了对低资源语言数据增强和模型迁移学习方法的深入探讨，推动了自然语言处理领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集