five

UD_Spanish-AnCora

收藏
Hugging Face2026-02-06 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/IIC/UD_Spanish-AnCora
下载链接
链接失效反馈
官方服务:
资源简介:
UD_Spanish-AnCora数据集是基于AnCora语料库的注释,并映射到Universal Dependencies树库上的西班牙语数据集,主要用于词性标注任务。数据集包含三个conllu格式的文件,分别用于训练、开发和测试。每个数据实例由10个字段组成,包括词形、词根、通用词性标签、语言特定词性标签、形态特征、依存关系等,遵循Universal Dependencies的标注标准。数据集为西班牙语(es-ES),采用CC Attribution 4.0 International License许可,使用时需引用相关论文。
提供机构:
Instituto de Ingeniería del Conocimiento
创建时间:
2026-02-06
原始信息汇总

UD_Spanish-AnCora 数据集概述

数据集描述

数据集摘要

该数据集由 AnCora 语料库 的标注组成,这些标注被映射到 通用依存树库。该语料库的词性标注被用作西班牙语基准测试 EvalEs 的一部分。

支持的任务与排行榜

  • 词性标注

语言

数据集语言为西班牙语 (es-ES)。

数据集结构

数据实例

数据以三个 CoNLL-U 格式文件提供。

数据字段

数据文件包含三种类型的行:

  1. 词行:包含一个词/标记的标注,由10个字段组成,字段间用制表符分隔。
  2. 空行:标记句子边界。
  3. 注释行:以井号 (#) 开头。

词行包含以下字段:

  1. ID:词索引,每个新句子从整数1开始;对于多词标记可能是一个范围;对于空节点可能是一个十进制数。
  2. FORM:词形或标点符号。
  3. LEMMA:词形的词元或词干。
  4. UPOS:通用词性标签。
  5. XPOS:语言特定的词性标签;不可用时为下划线。
  6. FEATS:来自通用特征集或已定义的语言特定扩展的形态特征列表;不可用时为下划线。
  7. HEAD:当前词的头部,是ID的值或零 (0)。
  8. DEPREL:与HEAD的通用依存关系(若HEAD=0则为root)或已定义的语言特定子类型。
  9. DEPS:增强依存图,形式为头部-依存关系对的列表。
  10. MISC:任何其他标注。

数据划分

数据集包含以下三个划分:

  • 训练集es_ancora-ud-train.conllu
  • 验证集es_ancora-ud-dev.conllu
  • 测试集es_ancora-ud-test.conllu

划分统计信息

  • 训练集:14,287 个样本,10,005,508 字节
  • 验证集:1,654 个样本,1,179,118 字节
  • 测试集:1,721 个样本,1,184,940 字节
  • 总数据集大小:12,369,566 字节
  • 下载大小:3,754,217 字节

数据集创建

数据来源

  • 原始来源:https://huggingface.co/datasets/PlanTL-GOB-ES/UD_Spanish-AnCora
  • 项目网站:https://github.com/UniversalDependencies/UD_Spanish-AnCora

初始数据收集与标准化

原始标注是在巴塞罗那大学 AnCora 项目 的组成框架下完成的。随后由 通用依存团队 转换为依存关系格式,并用于 CoNLL 2009 共享任务。CoNLL 2009 版本后来被转换为 HamleDT 和通用依存格式。

标注

  • 标注创建者:专家生成
  • 标注过程:有关首次 AnCora 标注的更多信息,请访问 AnCora 网站

个人与敏感信息

不包含个人或敏感信息。

使用注意事项

数据集的社会影响

该数据集有助于西班牙语语言模型的发展。

偏见讨论

未提供相关信息。

其他已知限制

未提供相关信息。

附加信息

许可信息

本作品采用 知识共享署名 4.0 国际许可协议 进行许可。

引用信息

使用本语料库时必须引用以下论文: Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).

引用通用依存项目: Rueter, J. (Creator), Erina, O. (Contributor), Klementeva, J. (Contributor), Ryabov, I. (Contributor), Tyers, F. M. (Contributor), Zeman, D. (Contributor), Nivre, J. (Creator) (15 Nov 2020). Universal Dependencies version 2.7 Erzya JR. Universal Dependencies Consortium.

联系方式

  • 联系人:Daniel Zeman (zeman@ufal.mff.cuni.cz)
搜集汇总
数据集介绍
main_image_url
构建方式
在西班牙语自然语言处理领域,UD_Spanish-AnCora数据集的构建体现了从传统标注框架向现代依存语法体系的迁移。该数据集源自巴塞罗那大学主导的AnCora项目,最初采用成分句法框架对西班牙语文本进行标注。随后,通过Universal Dependencies团队的转换工作,原始标注被系统性地映射为通用依存关系结构,并进一步整合入CoNLL 2009共享任务与HamleDT项目。这一转换过程不仅保留了AnCora语料库的多层级语言学标注,还使其适配于当代依存句法分析的标准范式,最终形成包含训练集、验证集与测试集的标准化分割版本。
特点
该数据集的核心特征在于其严谨的多层级语言学标注体系。每个数据实例均以CONLL-U格式呈现,包含词形、词元、通用词性标签等十个结构化字段,完整覆盖词汇、句法与依存关系信息。其标注体系遵循Universal Dependencies 2.7规范,定义了包括形容词、介词、动词等在内的17种通用词性类别,确保跨语言标注的一致性。数据规模方面,数据集提供约1.8万条句子实例,划分为训练、验证与测试三个标准子集,为西班牙语词性标注任务提供了系统性的评估基准。
使用方法
在具体应用场景中,该数据集主要服务于西班牙语词性标注模型的训练与评估。研究者可通过HuggingFace平台直接加载数据集,其结构化字段可直接转换为适合神经网络模型处理的张量格式。典型工作流程包括:利用训练集数据优化模型参数,通过验证集进行超参数调优,最终在测试集上评估模型性能。数据集遵循CC BY 4.0许可协议,允许学术与商业用途的二次开发,同时要求在使用时引用原始AnCora语料库与Universal Dependencies项目的相关文献。
背景与挑战
背景概述
UD_Spanish-AnCora数据集是西班牙语自然语言处理领域的重要资源,其构建源于巴塞罗那大学AnCora项目,该项目旨在为加泰罗尼亚语和西班牙语提供多层次标注语料库。该数据集将AnCora语料库的标注映射至通用依存关系框架,由Universal Dependencies团队主导转换,并于CoNLL 2009共享任务中首次应用。作为西班牙语词性标注任务的核心基准,该数据集推动了西班牙语依存句法分析和语言模型的发展,为跨语言语法研究提供了标准化标注范例。
当前挑战
该数据集致力于解决西班牙语词性标注与依存句法分析中的挑战,包括处理西班牙语丰富的形态变化、复杂句法结构以及多义词的准确标注。在构建过程中,主要挑战涉及将原有选区标注框架转换为依存关系标注体系,需确保标注一致性并适应通用依存关系标准。同时,语料来源的多样性与标注质量的统一性也对数据集的可靠性提出了较高要求,这些因素共同构成了该数据集在语言学理论与计算实践中的核心难点。
常用场景
经典使用场景
在西班牙语自然语言处理领域,UD_Spanish-AnCora数据集作为一项关键资源,其最经典的使用场景在于词性标注任务。该数据集基于AnCora语料库的标注信息,并映射至通用依存树库框架,为研究者提供了大规模、高质量的西班牙语文本标注实例。通过其标准化的训练、验证和测试划分,该数据集常被用于开发和评估各类词性标注模型,特别是在监督学习范式中,为模型训练提供了丰富的语言特征和上下文信息,从而推动了西班牙语词性标注技术的精确度与鲁棒性提升。
衍生相关工作
围绕UD_Spanish-AnCora数据集,衍生了一系列经典研究工作。这些工作主要集中在改进西班牙语词性标注和依存解析的算法上,例如基于深度学习的序列标注模型,如BiLSTM-CRF架构,在该数据集上进行了广泛验证和优化。同时,该数据集也被纳入EvalEs西班牙语基准测试中,促进了多任务学习框架和跨语言迁移学习的研究。此外,许多研究利用该数据集探索了低资源语言处理策略,为其他语言的数据集构建和标注提供了方法论参考,从而在自然语言处理社区中产生了深远影响。
数据集最近研究
最新研究方向
在西班牙语自然语言处理领域,UD_Spanish-AnCora数据集作为基于通用依存标注体系的重要资源,正推动着词性标注任务向更精细化和跨语言统一的方向发展。当前研究热点聚焦于利用该数据集训练多语言预训练模型,以提升西班牙语在低资源场景下的句法分析性能,同时结合深度学习技术探索词性标注与依存解析的联合优化方法。这些进展不仅增强了西班牙语语言模型的泛化能力,也为构建更公平、包容的多语言人工智能系统提供了关键数据支撑,在促进语言技术多样性和跨文化应用方面具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作