varox34/telugu-dataset
收藏UD_Spanish-AnCora 数据集概述
数据集描述
数据集摘要
该数据集包含从 AnCora 语料库 投影到 Universal Dependencies 树库 的注释。我们使用该语料库的词性标注作为 EvalEs 西班牙语基准测试的一部分。
支持的任务和排行榜
- 词性标注
语言
数据集为西班牙语 (es-ES)
数据集结构
数据实例
包含三个 conllu 文件。
注释以纯文本文件(UTF-8,归一化为 NFC,仅使用 LF 字符作为换行符,包括文件末尾的 LF 字符)编码,包含三种类型的行:
- 包含 10 个字段分隔的单词/标记注释的单词行。
- 标记句子边界的空白行。
- 以哈希(#)开头的注释行。
数据字段
单词行包含以下字段:
- ID:单词索引,每个新句子从 1 开始;可能是多词标记的范围;可能是空节点的十进制数(十进制数可以小于 1 但必须大于 0)。
- FORM:单词形式或标点符号。
- LEMMA:词形式或词干。
- UPOS:通用词性标记。
- XPOS:特定语言的词性标记;如果不可用则为下划线。
- FEATS:来自通用特征库存或定义的语言特定扩展的形态特征列表;如果不可用则为下划线。
- HEAD:当前单词的头,可以是 ID 值或零(0)。
- DEPREL:与 HEAD 的通用依赖关系(如果 HEAD = 0 则为根)或定义的语言特定子类型之一。
- DEPS:增强依赖图,以头-依赖关系对列表的形式。
- MISC:任何其他注释。
数据分割
- es_ancora-ud-train.conllu
- es_ancora-ud-dev.conllu
- es_ancora-ud-test.conllu
数据集创建
源数据
原始注释在成分框架中完成,作为巴塞罗那大学 AnCora 项目 的一部分。它被 Universal Dependencies 团队 转换为依赖关系,并在 CoNLL 2009 共享任务中使用。CoNLL 2009 版本后来被转换为 HamleDT 和 Universal Dependencies。
注释
注释过程
更多关于 AnCora 注释的信息,请访问 AnCora 网站。
注释者
更多关于 AnCora 注释团队的信息,请访问 AnCora 网站。
个人和敏感信息
不包含个人或敏感信息。
使用数据的注意事项
数据集的社会影响
该数据集有助于西班牙语语言模型的发展。
附加信息
许可信息
该作品根据 <a rel="license" href="https://creativecommons.org/licenses/by/4.0/">CC Attribution 4.0 International License</a> 许可。
引用信息
使用该语料库时,必须引用以下论文:
Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).
引用 Universal Dependencies 项目时:
Rueter, J. (Creator), Erina, O. (Contributor), Klementeva, J. (Contributor), Ryabov, I. (Contributor), Tyers, F. M. (Contributor), Zeman, D. (Contributor), Nivre, J. (Creator) (15 Nov 2020). Universal Dependencies version 2.7 Erzya JR. Universal Dependencies Consortium.



