five

albertvillanova/universal_dependencies

收藏
Hugging Face2023-11-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/albertvillanova/universal_dependencies
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Universal Dependencies Treebank,是一个多语言的树库,包含了多种语言的标注信息。数据集由专家生成和众包创建,涵盖了来自不同地区的广泛语言。数据集归类于词分类任务,特别是句法分析。它包含了诸如词、词元、词性标签和依存关系等特征。数据集规模中等,针对不同语言有多个配置,并包含训练、验证和测试的分割。

This dataset, named Universal Dependencies Treebank, is a multilingual treebank containing annotated linguistic information across a diverse set of languages. It was developed through expert curation and crowdsourced annotation, covering a broad range of languages from various geographical regions. This dataset is designed for word-level classification tasks, with a particular emphasis on syntactic parsing, and includes core linguistic features such as tokens, lemmas, part-of-speech (POS) tags, and dependency relations. It has a moderate scale, offers multiple language-specific configurations, and includes standard train, validation, and test data splits.
提供机构:
albertvillanova
原始信息汇总

数据集概述

基本信息

  • 名称: Universal Dependencies Treebank
  • 语言: 多语言,包括但不限于 af, aii, ajp, akk, am, apu, aqz, ar, be, bg, bho, bm, br, bxr, ca, ckt, cop, cs, cu, cy, da, de, el, en, es, et, eu, fa, fi, fo, fr, fro, ga, gd, gl, got, grc, gsw, gun, gv, he, hi, hr, hsb, hu, hy, id, is, it, ja, kfm, kk, kmr, ko, koi, kpv, krl, la, lt, lv, lzh, mdf, mr, mt, myu, myv, nl, no, nyq, olo, orv, otk, pcm, pl, pt, ro, ru, sa, sk, sl, sme, sms, soj, sq, sr, sv, swl, ta, te, th, tl, tpn, tr, ug, uk, ur, vi, wbp, wo, yo, yue, zh
  • 许可证: 未知
  • 多语言性: 多语言
  • 大小类别: 1K<n<10K
  • 源数据集: 原始
  • 任务类别: 词元分类
  • 任务ID: 解析
  • Paperswithcode ID: universal-dependencies

数据集结构

  • 特征:
    • idx: 字符串
    • text: 字符串
    • tokens: 字符串序列
    • lemmas: 字符串序列
    • upos: 类别标签序列,包括NOUN, PUNCT, ADP等
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列

数据集分割

  • 分割:
    • train: 训练集,示例数量和字节数根据不同语言配置而异
    • validation: 验证集,示例数量和字节数根据不同语言配置而异
    • test: 测试集,示例数量和字节数根据不同语言配置而异

示例配置详情

  • 配置名称: 例如 af_afribooms, akk_pisandub, ar_nyuad等
  • 特征: 同上
  • 分割: 同上
  • 下载大小: 根据不同语言配置而异
  • 数据集大小: 根据不同语言配置而异
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作