projecte-aina/UD_Catalan-AnCora

Name: projecte-aina/UD_Catalan-AnCora
Creator: projecte-aina
Published: 2024-10-08 12:49:49
License: 暂无描述

Hugging Face2024-10-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/projecte-aina/UD_Catalan-AnCora

下载链接

链接失效反馈

官方服务：

资源简介：

UD_Catalan-AnCora数据集是基于AnCora语料库的注释，并映射到Universal Dependencies树库中。该数据集主要用于词性标注任务，语言为加泰罗尼亚语。数据集包含三个conllu文件，文件中的注释以纯文本形式编码，包含单词行、空白行和注释行。单词行包含10个字段，如ID、FORM、LEMMA等。数据集分为训练集、开发集和测试集。数据集的创建过程涉及从AnCora项目的原始注释转换为依赖关系，并用于CoNLL 2009共享任务。数据集不包含个人或敏感信息，且对加泰罗尼亚语这种低资源语言的模型开发有贡献。

提供机构：

projecte-aina

原始信息汇总

数据集概述

数据集名称

名称: UD_Catalan-AnCora

数据集摘要

摘要: 本数据集由AnCora语料库的注释组成，映射到通用依赖关系树库。使用此语料库的POS注释作为加泰罗尼亚语言理解基准测试(CLUB)的一部分。

支持的任务和排行榜

任务: POS标注

语言

语言: 加泰罗尼亚语 (ca-ES)

数据集结构

数据实例

格式: 三个conllu文件。
编码: UTF-8，NFC规范化，仅使用LF字符作为换行符。
内容: 包含三种类型的行：单词行、空行（标记句子边界）和注释行（以#开头）。

数据字段

字段: 包含10个字段，分别是ID、FORM、LEMMA、UPOS、XPOS、FEATS、HEAD、DEPREL、DEPS和MISC。

数据分割

分割: 包含训练集、开发集和测试集，分别为ca_ancora-ud-train.conllu、ca_ancora-ud-dev.conllu和ca_ancora-ud-test.conllu。

数据集创建

源数据

来源: 原始注释由AnCora项目在巴塞罗那大学完成，后由通用依赖关系团队转换为依赖关系。

注释

注释过程: 详情请访问AnCora网站。

使用数据时的考虑

社会影响

影响: 本数据集有助于加泰罗尼亚语这种低资源语言的模型开发。

附加信息

许可证信息

许可证: CC Attribution 4.0 International License

引用信息

引用: 使用此语料库时，必须引用Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).

5,000+

优质数据集

54 个

任务类型

进入经典数据集