konsman/adu-corpus
收藏Hugging Face2026-02-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/konsman/adu-corpus
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: arxiv-silver
features:
- name: sentence_id
dtype: string
- name: sentence_text
dtype: string
- name: source_dataset
dtype: string
- name: domain
dtype: string
- name: split
dtype: string
- name: adu_label
dtype: string
- name: original_label
dtype: string
- name: confidence
dtype: float64
- name: extra
struct:
- name: chunk_id
dtype: string
- name: llm_raw_confidence
dtype: float64
- name: modality
dtype: string
- name: reasoning
dtype: string
splits:
- name: train
num_bytes: 5293170
num_examples: 12266
- name: validation
num_bytes: 662993
num_examples: 1533
- name: test
num_bytes: 658649
num_examples: 1537
download_size: 2423620
dataset_size: 6614812
- config_name: csabstruct
features:
- name: sentence_id
dtype: string
- name: sentence_text
dtype: string
- name: source_dataset
dtype: string
- name: domain
dtype: string
- name: split
dtype: string
- name: adu_label
dtype: string
- name: original_label
dtype: string
- name: confidence
dtype: float64
- name: extra
struct:
- name: abstract_id
dtype: string
- name: sentence_pos
dtype: int64
splits:
- name: train
num_bytes: 3107708
num_examples: 10983
- name: validation
num_bytes: 589878
num_examples: 1959
- name: test
num_bytes: 363914
num_examples: 1288
download_size: 1402356
dataset_size: 4061500
- config_name: pubmed_rct
features:
- name: sentence_id
dtype: string
- name: sentence_text
dtype: string
- name: source_dataset
dtype: string
- name: domain
dtype: string
- name: split
dtype: string
- name: adu_label
dtype: string
- name: original_label
dtype: string
- name: confidence
dtype: float64
- name: extra
struct:
- name: pmid
dtype: string
- name: sentence_pos
dtype: int64
splits:
- name: train
num_bytes: 480507305
num_examples: 1761809
- name: validation
num_bytes: 65114235
num_examples: 229084
- name: test
num_bytes: 59310765
num_examples: 220968
download_size: 193209563
dataset_size: 604932305
- config_name: qp-silver
features:
- name: sentence_id
dtype: string
- name: sentence_text
dtype: string
- name: source_dataset
dtype: string
- name: domain
dtype: string
- name: split
dtype: string
- name: adu_label
dtype: string
- name: original_label
dtype: string
- name: confidence
dtype: float64
- name: extra
struct:
- name: chunk_id
dtype: string
- name: llm_raw_confidence
dtype: float64
- name: modality
dtype: string
- name: reasoning
dtype: string
splits:
- name: train
num_bytes: 460679
num_examples: 1090
- name: validation
num_bytes: 59023
num_examples: 136
- name: test
num_bytes: 58282
num_examples: 139
download_size: 220749
dataset_size: 577984
- config_name: sciarg
features:
- name: sentence_id
dtype: string
- name: sentence_text
dtype: string
- name: source_dataset
dtype: string
- name: domain
dtype: string
- name: split
dtype: string
- name: adu_label
dtype: string
- name: original_label
dtype: string
- name: confidence
dtype: float64
- name: extra
struct:
- name: doc_id
dtype: string
- name: adu_pos
dtype: int64
splits:
- name: train
num_bytes: 904340
num_examples: 3235
- name: validation
num_bytes: 64792
num_examples: 228
- name: test
num_bytes: 143700
num_examples: 521
download_size: 409098
dataset_size: 1112832
- config_name: theory-silver-v1
features:
- name: sentence_id
dtype: string
- name: sentence_text
dtype: string
- name: source_dataset
dtype: string
- name: domain
dtype: string
- name: split
dtype: string
- name: adu_label
dtype: string
- name: original_label
dtype: string
- name: confidence
dtype: float64
- name: extra
struct:
- name: chunk_id
dtype: string
- name: llm_raw_confidence
dtype: float64
- name: modality
dtype: string
- name: reasoning
dtype: string
splits:
- name: train
num_bytes: 3679472
num_examples: 9235
download_size: 1369286
dataset_size: 3679472
configs:
- config_name: arxiv-silver
data_files:
- split: train
path: arxiv-silver/train-*
- split: validation
path: arxiv-silver/validation-*
- split: test
path: arxiv-silver/test-*
- config_name: csabstruct
data_files:
- split: train
path: csabstruct/train-*
- split: validation
path: csabstruct/validation-*
- split: test
path: csabstruct/test-*
- config_name: pubmed_rct
data_files:
- split: train
path: pubmed_rct/train-*
- split: validation
path: pubmed_rct/validation-*
- split: test
path: pubmed_rct/test-*
- config_name: qp-silver
data_files:
- split: train
path: qp-silver/train-*
- split: validation
path: qp-silver/validation-*
- split: test
path: qp-silver/test-*
- config_name: sciarg
data_files:
- split: train
path: sciarg/train-*
- split: validation
path: sciarg/validation-*
- split: test
path: sciarg/test-*
- config_name: theory-silver-v1
data_files:
- split: train
path: theory-silver-v1/train-*
---
数据集信息:
- 配置名称:arxiv-silver
特征字段:
- 字段名:sentence_id,数据类型:字符串
- 字段名:sentence_text,数据类型:字符串
- 字段名:source_dataset,数据类型:字符串
- 字段名:domain,数据类型:字符串
- 字段名:split,数据类型:字符串
- 字段名:adu_label,论证话语单元(Argumentative Discourse Unit, ADU)标签,数据类型:字符串
- 字段名:original_label,数据类型:字符串
- 字段名:confidence,数据类型:64位浮点数
- 字段名:extra(结构体嵌套特征):
- 字段名:chunk_id(块ID),数据类型:字符串
- 字段名:llm_raw_confidence,大语言模型(Large Language Model, LLM)原始置信度,数据类型:64位浮点数
- 字段名:modality(模态),数据类型:字符串
- 字段名:reasoning(推理过程),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节数:5293170,样本数量:12266
- 划分名称:validation(验证集),字节数:662993,样本数量:1533
- 划分名称:test(测试集),字节数:658649,样本数量:1537
下载总大小:2423620,数据集总占用大小:6614812
- 配置名称:csabstruct
特征字段:
- 字段名:sentence_id,数据类型:字符串
- 字段名:sentence_text,数据类型:字符串
- 字段名:source_dataset,数据类型:字符串
- 字段名:domain,数据类型:字符串
- 字段名:split,数据类型:字符串
- 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串
- 字段名:original_label,数据类型:字符串
- 字段名:confidence,数据类型:64位浮点数
- 字段名:extra(结构体嵌套特征):
- 字段名:abstract_id(摘要ID),数据类型:字符串
- 字段名:sentence_pos(句子位置索引),数据类型:64位整数
数据集划分:
- 划分名称:train(训练集),字节数:3107708,样本数量:10983
- 划分名称:validation(验证集),字节数:589878,样本数量:1959
- 划分名称:test(测试集),字节数:363914,样本数量:1288
下载总大小:1402356,数据集总占用大小:4061500
- 配置名称:pubmed_rct
特征字段:
- 字段名:sentence_id,数据类型:字符串
- 字段名:sentence_text,数据类型:字符串
- 字段名:source_dataset,数据类型:字符串
- 字段名:domain,数据类型:字符串
- 字段名:split,数据类型:字符串
- 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串
- 字段名:original_label,数据类型:字符串
- 字段名:confidence,数据类型:64位浮点数
- 字段名:extra(结构体嵌套特征):
- 字段名:pmid(PubMed编号),数据类型:字符串
- 字段名:sentence_pos(句子位置索引),数据类型:64位整数
数据集划分:
- 划分名称:train(训练集),字节数:480507305,样本数量:1761809
- 划分名称:validation(验证集),字节数:65114235,样本数量:229084
- 划分名称:test(测试集),字节数:59310765,样本数量:220968
下载总大小:193209563,数据集总占用大小:604932305
- 配置名称:qp-silver
特征字段:
- 字段名:sentence_id,数据类型:字符串
- 字段名:sentence_text,数据类型:字符串
- 字段名:source_dataset,数据类型:字符串
- 字段名:domain,数据类型:字符串
- 字段名:split,数据类型:字符串
- 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串
- 字段名:original_label,数据类型:字符串
- 字段名:confidence,数据类型:64位浮点数
- 字段名:extra(结构体嵌套特征):
- 字段名:chunk_id(块ID),数据类型:字符串
- 字段名:llm_raw_confidence,大语言模型(LLM)原始置信度,数据类型:64位浮点数
- 字段名:modality(模态),数据类型:字符串
- 字段名:reasoning(推理过程),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节数:460679,样本数量:1090
- 划分名称:validation(验证集),字节数:59023,样本数量:136
- 划分名称:test(测试集),字节数:58282,样本数量:139
下载总大小:220749,数据集总占用大小:577984
- 配置名称:sciarg
特征字段:
- 字段名:sentence_id,数据类型:字符串
- 字段名:sentence_text,数据类型:字符串
- 字段名:source_dataset,数据类型:字符串
- 字段名:domain,数据类型:字符串
- 字段名:split,数据类型:字符串
- 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串
- 字段名:original_label,数据类型:字符串
- 字段名:confidence,数据类型:64位浮点数
- 字段名:extra(结构体嵌套特征):
- 字段名:doc_id(文档ID),数据类型:字符串
- 字段名:adu_pos(论证话语单元位置索引),数据类型:64位整数
数据集划分:
- 划分名称:train(训练集),字节数:904340,样本数量:3235
- 划分名称:validation(验证集),字节数:64792,样本数量:228
- 划分名称:test(测试集),字节数:143700,样本数量:521
下载总大小:409098,数据集总占用大小:1112832
- 配置名称:theory-silver-v1
特征字段:
- 字段名:sentence_id,数据类型:字符串
- 字段名:sentence_text,数据类型:字符串
- 字段名:source_dataset,数据类型:字符串
- 字段名:domain,数据类型:字符串
- 字段名:split,数据类型:字符串
- 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串
- 字段名:original_label,数据类型:字符串
- 字段名:confidence,数据类型:64位浮点数
- 字段名:extra(结构体嵌套特征):
- 字段名:chunk_id(块ID),数据类型:字符串
- 字段名:llm_raw_confidence,大语言模型(LLM)原始置信度,数据类型:64位浮点数
- 字段名:modality(模态),数据类型:字符串
- 字段名:reasoning(推理过程),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节数:3679472,样本数量:9235
下载总大小:1369286,数据集总占用大小:3679472
配置列表:
- 配置名称:arxiv-silver
数据文件:
- 划分:train(训练集),路径:arxiv-silver/train-*
- 划分:validation(验证集),路径:arxiv-silver/validation-*
- 划分:test(测试集),路径:arxiv-silver/test-*
- 配置名称:csabstruct
数据文件:
- 划分:train(训练集),路径:csabstruct/train-*
- 划分:validation(验证集),路径:csabstruct/validation-*
- 划分:test(测试集),路径:csabstruct/test-*
- 配置名称:pubmed_rct
数据文件:
- 划分:train(训练集),路径:pubmed_rct/train-*
- 划分:validation(验证集),路径:pubmed_rct/validation-*
- 划分:test(测试集),路径:pubmed_rct/test-*
- 配置名称:qp-silver
数据文件:
- 划分:train(训练集),路径:qp-silver/train-*
- 划分:validation(验证集),路径:qp-silver/validation-*
- 划分:test(测试集),路径:qp-silver/test-*
- 配置名称:sciarg
数据文件:
- 划分:train(训练集),路径:sciarg/train-*
- 划分:validation(验证集),路径:sciarg/validation-*
- 划分:test(测试集),路径:sciarg/test-*
- 配置名称:theory-silver-v1
数据文件:
- 划分:train(训练集),路径:theory-silver-v1/train-*
提供机构:
konsman



