PlanTL-GOB-ES/UD_Spanish-AnCora
收藏Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PlanTL-GOB-ES/UD_Spanish-AnCora
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由AnCora语料库的注释组成,并映射到Universal Dependencies树库中。它主要用于西班牙语的词性标注任务,作为EvalEs西班牙语基准的一部分。数据集包含三个conllu文件,分别用于训练、开发和测试。数据集的注释以纯文本文件形式存储,包含单词行、空白行和注释行。单词行包含10个字段,如ID、FORM、LEMMA、UPOS等。数据集是西班牙语(es-ES)的,且不包含个人或敏感信息。
提供机构:
PlanTL-GOB-ES
原始信息汇总
数据集概述
数据集名称
- 名称: UD_Spanish-AnCora
数据集摘要
- 摘要: 该数据集由AnCora语料库的注释组成,映射到Universal Dependencies树库上。使用此语料库的POS注释作为EvalEs西班牙语语言基准的一部分。
支持的任务和排行榜
- 任务: POS标记
语言
- 语言: 西班牙语 (
es-ES)
数据集结构
- 数据实例: 包含三个conllu文件。
- 数据字段: 每个单词行包含10个字段,包括ID、FORM、LEMMA、UPOS、XPOS、FEATS、HEAD、DEPREL、DEPS和MISC。
- 数据分割: 分为训练集(es_ancora-ud-train.conllu)、开发集(es_ancora-ud-dev.conllu)和测试集(es_ancora-ud-test.conllu)。
数据集创建
- 源数据: 原始注释作为AnCora项目的一部分在巴塞罗那大学完成,后由Universal Dependencies团队转换为依赖关系。
- 许可证: 本作品根据CC Attribution 4.0 International License授权。
引用信息
- 引用文献:
- Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).
- Rueter, J. (Creator), Erina, O. (Contributor), Klementeva, J. (Contributor), Ryabov, I. (Contributor), Tyers, F. M. (Contributor), Zeman, D. (Contributor), Nivre, J. (Creator) (15 Nov 2020). Universal Dependencies version 2.7 Erzya JR. Universal Dependencies Consortium.



