multilingual-discourse-hub/disrpt
收藏Hugging Face2025-09-08 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/multilingual-discourse-hub/disrpt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多种语言的自然语言处理标注数据,包括依存句法分析、话语关系标注和句法结构标注。数据集分为训练集、验证集和测试集,每种配置都详细列出了其特征和划分情况。数据集遵循Apache-2.0许可证。
This dataset includes natural language processing annotated data for multiple languages, featuring dependency parsing, discourse relation annotation, and constituency parsing. The dataset is divided into training, validation, and test sets, with detailed information on features and splits for each configuration. The dataset is licensed under Apache-2.0.
提供机构:
multilingual-discourse-hub
原始信息汇总
数据集概述
1. deu.rst.pcc.conllu
- 配置名称: deu.rst.pcc.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: null
- 分割:
- train: 1773个样本,3002196字节
- validation: 207个样本,354996字节
- test: 213个样本,357461字节
- 下载大小: 0
- 数据集大小: 3714653字节
2. deu.rst.pcc.rels
- 配置名称: deu.rst.pcc.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- train: 2164个样本,1061634字节
- validation: 241个样本,120267字节
- test: 260个样本,131921字节
- 下载大小: 0
- 数据集大小: 1313822字节
3. eng.dep.covdtb.conllu
- 配置名称: eng.dep.covdtb.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: 字符串序列
- 分割:
- validation: 1162个样本,2520766字节
- test: 1181个样本,2687889字节
- 下载大小: 705960
- 数据集大小: 5208655字节
4. eng.dep.covdtb.rels
- 配置名称: eng.dep.covdtb.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- validation: 2399个样本,1542756字节
- test: 2586个样本,1726590字节
- 下载大小: 923126
- 数据集大小: 3269346字节
5. eng.dep.scidtb.conllu
- 配置名称: eng.dep.scidtb.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: 字符串序列
- 分割:
- train: 2570个样本,5396222字节
- validation: 815个样本,1749607字节
- test: 817个样本,1706155字节
- 下载大小: 0
- 数据集大小: 8851984字节
6. eng.dep.scidtb.rels
- 配置名称: eng.dep.scidtb.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- train: 6060个样本,3463826字节
- validation: 1933个样本,1125360字节
- test: 1911个样本,1092953字节
- 下载大小: 0
- 数据集大小: 5682139字节
7. eng.pdtb.tedm.conllu
- 配置名称: eng.pdtb.tedm.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: 字符串序列
- 分割:
- validation: 143个样本,245201字节
- test: 238个样本,520205字节
- 下载大小: 135746
- 数据集大小: 765406字节
8. eng.pdtb.tedm.rels
- 配置名称: eng.pdtb.tedm.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- validation: 178个样本,100737字节
- test: 351个样本,221689字节
- 下载大小: 124850
- 数据集大小: 322426字节
9. eng.rst.gentle.conllu
- 配置名称: eng.rst.gentle.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: 字符串序列
- 分割:
- test: 1334个样本,2124578字节
- 下载大小: 438782
- 数据集大小: 2124578字节
10. eng.rst.gentle.rels
- 配置名称: eng.rst.gentle.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- test: 2540个样本,1105756字节
- 下载大小: 277584
- 数据集大小: 1105756字节
11. eng.sdrt.stac.conllu
- 配置名称: eng.sdrt.stac.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: 字符串序列
- 分割:
- train: 8754个样本,4215467字节
- validation: 991个样本,488587字节
- test: 1342个样本,675799字节
- 下载大小: 744446
- 数据集大小: 5379853字节
12. eng.sdrt.stac.rels
- 配置名称: eng.sdrt.stac.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- train: 9580个样本,1917800字节
- validation: 1145个样本,230309字节
- test: 1510个样本,311996字节
- 下载大小: 1030567
- 数据集大小: 2460105字节
13. eus.rst.ert.conllu
- 配置名称: eus.rst.ert.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: null
- 分割:
- train: 1599个样本,2952101字节
- validation: 366个样本,693012字节
- test: 415个样本,753179字节
- 下载大小: 635612
- 数据集大小: 4398292字节
14. eus.rst.ert.rels
- 配置名称: eus.rst.ert.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- train: 2533个样本,1544724字节
- validation: 614个样本,367114字节
- test: 678个样本,398853字节
- 下载大小: 267097
- 数据集大小: 2310691字节
15. fas.rst.prstc.conllu
- 配置名称: fas.rst.prstc.conllu
- 特征:
- id: 字符串序列
- form: 字符串序列
- lemma: 字符串序列
- upos: 字符串序列
- xpos: 字符串序列
- feats: 字符串序列
- head: 字符串序列
- deprel: 字符串序列
- deps: 字符串序列
- misc: 字符串序列
- doc_id: 字符串
- mwe: 字符串序列
- 分割:
- train: 1713个样本,4738331字节
- validation: 202个样本,631614字节
- test: 264个样本,668584字节
- 下载大小: 731899
- 数据集大小: 6038529字节
16. fas.rst.prstc.rels
- 配置名称: fas.rst.prstc.rels
- 特征:
- doc: 字符串
- unit1_toks: 字符串
- unit2_toks: 字符串
- unit1_txt: 字符串
- unit2_txt: 字符串
- s1_toks: 字符串
- s2_toks: 字符串
- unit1_sent: 字符串
- unit2_sent: 字符串
- dir: 字符串
- orig_label: 字符串
- label: 字符串
- 分割:
- train: 4100个样本,4147843字节
- validation: 499个样本,576772字节
- test: 592个样本,576615字节
- 下载大小: 1151593
- 数据集大小: 5301230字节



