five

projecte-aina/UD_Catalan-AnCora

收藏
Hugging Face2024-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/UD_Catalan-AnCora
下载链接
链接失效反馈
官方服务:
资源简介:
UD_Catalan-AnCora数据集是基于AnCora语料库的注释,并映射到Universal Dependencies树库中。该数据集主要用于词性标注任务,语言为加泰罗尼亚语。数据集包含三个conllu文件,文件中的注释以纯文本形式编码,包含单词行、空白行和注释行。单词行包含10个字段,如ID、FORM、LEMMA等。数据集分为训练集、开发集和测试集。数据集的创建过程涉及从AnCora项目的原始注释转换为依赖关系,并用于CoNLL 2009共享任务。数据集不包含个人或敏感信息,且对加泰罗尼亚语这种低资源语言的模型开发有贡献。
提供机构:
projecte-aina
原始信息汇总

数据集概述

数据集名称

  • 名称: UD_Catalan-AnCora

数据集摘要

支持的任务和排行榜

  • 任务: POS标注

语言

  • 语言: 加泰罗尼亚语 (ca-ES)

数据集结构

数据实例

  • 格式: 三个conllu文件。
  • 编码: UTF-8,NFC规范化,仅使用LF字符作为换行符。
  • 内容: 包含三种类型的行:单词行、空行(标记句子边界)和注释行(以#开头)。

数据字段

  • 字段: 包含10个字段,分别是ID、FORM、LEMMA、UPOS、XPOS、FEATS、HEAD、DEPREL、DEPS和MISC。

数据分割

  • 分割: 包含训练集、开发集和测试集,分别为ca_ancora-ud-train.conllu、ca_ancora-ud-dev.conllu和ca_ancora-ud-test.conllu。

数据集创建

源数据

注释

使用数据时的考虑

社会影响

  • 影响: 本数据集有助于加泰罗尼亚语这种低资源语言的模型开发。

附加信息

许可证信息

  • 许可证: CC Attribution 4.0 International License

引用信息

  • 引用: 使用此语料库时,必须引用Taulé, M., M.A. Martí, M. Recasens (2008) Ancora: Multilevel Annotated Corpora for Catalan and Spanish, Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco).
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作