five

multilingual-discourse-hub/disrpt

收藏
Hugging Face2025-09-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/multilingual-discourse-hub/disrpt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多种语言的自然语言处理标注数据,包括依存句法分析、话语关系标注和句法结构标注。数据集分为训练集、验证集和测试集,每种配置都详细列出了其特征和划分情况。数据集遵循Apache-2.0许可证。

This dataset includes natural language processing annotated data for multiple languages, featuring dependency parsing, discourse relation annotation, and constituency parsing. The dataset is divided into training, validation, and test sets, with detailed information on features and splits for each configuration. The dataset is licensed under Apache-2.0.
提供机构:
multilingual-discourse-hub
原始信息汇总

数据集概述

1. deu.rst.pcc.conllu

  • 配置名称: deu.rst.pcc.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: null
  • 分割:
    • train: 1773个样本,3002196字节
    • validation: 207个样本,354996字节
    • test: 213个样本,357461字节
  • 下载大小: 0
  • 数据集大小: 3714653字节

2. deu.rst.pcc.rels

  • 配置名称: deu.rst.pcc.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • train: 2164个样本,1061634字节
    • validation: 241个样本,120267字节
    • test: 260个样本,131921字节
  • 下载大小: 0
  • 数据集大小: 1313822字节

3. eng.dep.covdtb.conllu

  • 配置名称: eng.dep.covdtb.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: 字符串序列
  • 分割:
    • validation: 1162个样本,2520766字节
    • test: 1181个样本,2687889字节
  • 下载大小: 705960
  • 数据集大小: 5208655字节

4. eng.dep.covdtb.rels

  • 配置名称: eng.dep.covdtb.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • validation: 2399个样本,1542756字节
    • test: 2586个样本,1726590字节
  • 下载大小: 923126
  • 数据集大小: 3269346字节

5. eng.dep.scidtb.conllu

  • 配置名称: eng.dep.scidtb.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: 字符串序列
  • 分割:
    • train: 2570个样本,5396222字节
    • validation: 815个样本,1749607字节
    • test: 817个样本,1706155字节
  • 下载大小: 0
  • 数据集大小: 8851984字节

6. eng.dep.scidtb.rels

  • 配置名称: eng.dep.scidtb.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • train: 6060个样本,3463826字节
    • validation: 1933个样本,1125360字节
    • test: 1911个样本,1092953字节
  • 下载大小: 0
  • 数据集大小: 5682139字节

7. eng.pdtb.tedm.conllu

  • 配置名称: eng.pdtb.tedm.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: 字符串序列
  • 分割:
    • validation: 143个样本,245201字节
    • test: 238个样本,520205字节
  • 下载大小: 135746
  • 数据集大小: 765406字节

8. eng.pdtb.tedm.rels

  • 配置名称: eng.pdtb.tedm.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • validation: 178个样本,100737字节
    • test: 351个样本,221689字节
  • 下载大小: 124850
  • 数据集大小: 322426字节

9. eng.rst.gentle.conllu

  • 配置名称: eng.rst.gentle.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: 字符串序列
  • 分割:
    • test: 1334个样本,2124578字节
  • 下载大小: 438782
  • 数据集大小: 2124578字节

10. eng.rst.gentle.rels

  • 配置名称: eng.rst.gentle.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • test: 2540个样本,1105756字节
  • 下载大小: 277584
  • 数据集大小: 1105756字节

11. eng.sdrt.stac.conllu

  • 配置名称: eng.sdrt.stac.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: 字符串序列
  • 分割:
    • train: 8754个样本,4215467字节
    • validation: 991个样本,488587字节
    • test: 1342个样本,675799字节
  • 下载大小: 744446
  • 数据集大小: 5379853字节

12. eng.sdrt.stac.rels

  • 配置名称: eng.sdrt.stac.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • train: 9580个样本,1917800字节
    • validation: 1145个样本,230309字节
    • test: 1510个样本,311996字节
  • 下载大小: 1030567
  • 数据集大小: 2460105字节

13. eus.rst.ert.conllu

  • 配置名称: eus.rst.ert.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: null
  • 分割:
    • train: 1599个样本,2952101字节
    • validation: 366个样本,693012字节
    • test: 415个样本,753179字节
  • 下载大小: 635612
  • 数据集大小: 4398292字节

14. eus.rst.ert.rels

  • 配置名称: eus.rst.ert.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • train: 2533个样本,1544724字节
    • validation: 614个样本,367114字节
    • test: 678个样本,398853字节
  • 下载大小: 267097
  • 数据集大小: 2310691字节

15. fas.rst.prstc.conllu

  • 配置名称: fas.rst.prstc.conllu
  • 特征:
    • id: 字符串序列
    • form: 字符串序列
    • lemma: 字符串序列
    • upos: 字符串序列
    • xpos: 字符串序列
    • feats: 字符串序列
    • head: 字符串序列
    • deprel: 字符串序列
    • deps: 字符串序列
    • misc: 字符串序列
    • doc_id: 字符串
    • mwe: 字符串序列
  • 分割:
    • train: 1713个样本,4738331字节
    • validation: 202个样本,631614字节
    • test: 264个样本,668584字节
  • 下载大小: 731899
  • 数据集大小: 6038529字节

16. fas.rst.prstc.rels

  • 配置名称: fas.rst.prstc.rels
  • 特征:
    • doc: 字符串
    • unit1_toks: 字符串
    • unit2_toks: 字符串
    • unit1_txt: 字符串
    • unit2_txt: 字符串
    • s1_toks: 字符串
    • s2_toks: 字符串
    • unit1_sent: 字符串
    • unit2_sent: 字符串
    • dir: 字符串
    • orig_label: 字符串
    • label: 字符串
  • 分割:
    • train: 4100个样本,4147843字节
    • validation: 499个样本,576772字节
    • test: 592个样本,576615字节
  • 下载大小: 1151593
  • 数据集大小: 5301230字节

17. fra.sdrt.ann

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作