projecte-aina/UD_Catalan-AnCora
收藏Hugging Face2024-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/UD_Catalan-AnCora
下载链接
链接失效反馈官方服务:
资源简介:
UD_Catalan-AnCora数据集是基于AnCora语料库的注释,并映射到Universal Dependencies树库中。该数据集主要用于词性标注任务,语言为加泰罗尼亚语。数据集包含三个conllu文件,文件中的注释以纯文本形式编码,包含单词行、空白行和注释行。单词行包含10个字段,如ID、FORM、LEMMA等。数据集分为训练集、开发集和测试集。数据集的创建过程涉及从AnCora项目的原始注释转换为依赖关系,并用于CoNLL 2009共享任务。数据集不包含个人或敏感信息,且对加泰罗尼亚语这种低资源语言的模型开发有贡献。
提供机构:
projecte-aina
原始信息汇总
数据集概述
数据集名称
- 名称: UD_Catalan-AnCora
数据集摘要
- 摘要: 本数据集由AnCora语料库的注释组成,映射到通用依赖关系树库。使用此语料库的POS注释作为加泰罗尼亚语言理解基准测试(CLUB)的一部分。
支持的任务和排行榜
- 任务: POS标注
语言
- 语言: 加泰罗尼亚语 (
ca-ES)
数据集结构
数据实例
- 格式: 三个conllu文件。
- 编码: UTF-8,NFC规范化,仅使用LF字符作为换行符。
- 内容: 包含三种类型的行:单词行、空行(标记句子边界)和注释行(以#开头)。
数据字段
- 字段: 包含10个字段,分别是ID、FORM、LEMMA、UPOS、XPOS、FEATS、HEAD、DEPREL、DEPS和MISC。
数据分割
- 分割: 包含训练集、开发集和测试集,分别为ca_ancora-ud-train.conllu、ca_ancora-ud-dev.conllu和ca_ancora-ud-test.conllu。
数据集创建
源数据
注释
- 注释过程: 详情请访问AnCora网站。
使用数据时的考虑
社会影响
- 影响: 本数据集有助于加泰罗尼亚语这种低资源语言的模型开发。
附加信息
许可证信息
- 许可证: CC Attribution 4.0 International License
引用信息
- 引用: 使用此语料库时,必须引用Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).



