konsman/adu-corpus

Name: konsman/adu-corpus
Creator: konsman
Published: 2026-02-25 07:43:44
License: 暂无描述

Hugging Face2026-02-25 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/konsman/adu-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: arxiv-silver features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: chunk_id dtype: string - name: llm_raw_confidence dtype: float64 - name: modality dtype: string - name: reasoning dtype: string splits: - name: train num_bytes: 5293170 num_examples: 12266 - name: validation num_bytes: 662993 num_examples: 1533 - name: test num_bytes: 658649 num_examples: 1537 download_size: 2423620 dataset_size: 6614812 - config_name: csabstruct features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: abstract_id dtype: string - name: sentence_pos dtype: int64 splits: - name: train num_bytes: 3107708 num_examples: 10983 - name: validation num_bytes: 589878 num_examples: 1959 - name: test num_bytes: 363914 num_examples: 1288 download_size: 1402356 dataset_size: 4061500 - config_name: pubmed_rct features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: pmid dtype: string - name: sentence_pos dtype: int64 splits: - name: train num_bytes: 480507305 num_examples: 1761809 - name: validation num_bytes: 65114235 num_examples: 229084 - name: test num_bytes: 59310765 num_examples: 220968 download_size: 193209563 dataset_size: 604932305 - config_name: qp-silver features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: chunk_id dtype: string - name: llm_raw_confidence dtype: float64 - name: modality dtype: string - name: reasoning dtype: string splits: - name: train num_bytes: 460679 num_examples: 1090 - name: validation num_bytes: 59023 num_examples: 136 - name: test num_bytes: 58282 num_examples: 139 download_size: 220749 dataset_size: 577984 - config_name: sciarg features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: doc_id dtype: string - name: adu_pos dtype: int64 splits: - name: train num_bytes: 904340 num_examples: 3235 - name: validation num_bytes: 64792 num_examples: 228 - name: test num_bytes: 143700 num_examples: 521 download_size: 409098 dataset_size: 1112832 - config_name: theory-silver-v1 features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: chunk_id dtype: string - name: llm_raw_confidence dtype: float64 - name: modality dtype: string - name: reasoning dtype: string splits: - name: train num_bytes: 3679472 num_examples: 9235 download_size: 1369286 dataset_size: 3679472 configs: - config_name: arxiv-silver data_files: - split: train path: arxiv-silver/train-* - split: validation path: arxiv-silver/validation-* - split: test path: arxiv-silver/test-* - config_name: csabstruct data_files: - split: train path: csabstruct/train-* - split: validation path: csabstruct/validation-* - split: test path: csabstruct/test-* - config_name: pubmed_rct data_files: - split: train path: pubmed_rct/train-* - split: validation path: pubmed_rct/validation-* - split: test path: pubmed_rct/test-* - config_name: qp-silver data_files: - split: train path: qp-silver/train-* - split: validation path: qp-silver/validation-* - split: test path: qp-silver/test-* - config_name: sciarg data_files: - split: train path: sciarg/train-* - split: validation path: sciarg/validation-* - split: test path: sciarg/test-* - config_name: theory-silver-v1 data_files: - split: train path: theory-silver-v1/train-* ---

数据集信息： - 配置名称：arxiv-silver 特征字段： - 字段名：sentence_id，数据类型：字符串 - 字段名：sentence_text，数据类型：字符串 - 字段名：source_dataset，数据类型：字符串 - 字段名：domain，数据类型：字符串 - 字段名：split，数据类型：字符串 - 字段名：adu_label，论证话语单元（Argumentative Discourse Unit, ADU）标签，数据类型：字符串 - 字段名：original_label，数据类型：字符串 - 字段名：confidence，数据类型：64位浮点数 - 字段名：extra（结构体嵌套特征）： - 字段名：chunk_id（块ID），数据类型：字符串 - 字段名：llm_raw_confidence，大语言模型（Large Language Model, LLM）原始置信度，数据类型：64位浮点数 - 字段名：modality（模态），数据类型：字符串 - 字段名：reasoning（推理过程），数据类型：字符串数据集划分： - 划分名称：train（训练集），字节数：5293170，样本数量：12266 - 划分名称：validation（验证集），字节数：662993，样本数量：1533 - 划分名称：test（测试集），字节数：658649，样本数量：1537 下载总大小：2423620，数据集总占用大小：6614812 - 配置名称：csabstruct 特征字段： - 字段名：sentence_id，数据类型：字符串 - 字段名：sentence_text，数据类型：字符串 - 字段名：source_dataset，数据类型：字符串 - 字段名：domain，数据类型：字符串 - 字段名：split，数据类型：字符串 - 字段名：adu_label，论证话语单元（ADU）标签，数据类型：字符串 - 字段名：original_label，数据类型：字符串 - 字段名：confidence，数据类型：64位浮点数 - 字段名：extra（结构体嵌套特征）： - 字段名：abstract_id（摘要ID），数据类型：字符串 - 字段名：sentence_pos（句子位置索引），数据类型：64位整数数据集划分： - 划分名称：train（训练集），字节数：3107708，样本数量：10983 - 划分名称：validation（验证集），字节数：589878，样本数量：1959 - 划分名称：test（测试集），字节数：363914，样本数量：1288 下载总大小：1402356，数据集总占用大小：4061500 - 配置名称：pubmed_rct 特征字段： - 字段名：sentence_id，数据类型：字符串 - 字段名：sentence_text，数据类型：字符串 - 字段名：source_dataset，数据类型：字符串 - 字段名：domain，数据类型：字符串 - 字段名：split，数据类型：字符串 - 字段名：adu_label，论证话语单元（ADU）标签，数据类型：字符串 - 字段名：original_label，数据类型：字符串 - 字段名：confidence，数据类型：64位浮点数 - 字段名：extra（结构体嵌套特征）： - 字段名：pmid（PubMed编号），数据类型：字符串 - 字段名：sentence_pos（句子位置索引），数据类型：64位整数数据集划分： - 划分名称：train（训练集），字节数：480507305，样本数量：1761809 - 划分名称：validation（验证集），字节数：65114235，样本数量：229084 - 划分名称：test（测试集），字节数：59310765，样本数量：220968 下载总大小：193209563，数据集总占用大小：604932305 - 配置名称：qp-silver 特征字段： - 字段名：sentence_id，数据类型：字符串 - 字段名：sentence_text，数据类型：字符串 - 字段名：source_dataset，数据类型：字符串 - 字段名：domain，数据类型：字符串 - 字段名：split，数据类型：字符串 - 字段名：adu_label，论证话语单元（ADU）标签，数据类型：字符串 - 字段名：original_label，数据类型：字符串 - 字段名：confidence，数据类型：64位浮点数 - 字段名：extra（结构体嵌套特征）： - 字段名：chunk_id（块ID），数据类型：字符串 - 字段名：llm_raw_confidence，大语言模型（LLM）原始置信度，数据类型：64位浮点数 - 字段名：modality（模态），数据类型：字符串 - 字段名：reasoning（推理过程），数据类型：字符串数据集划分： - 划分名称：train（训练集），字节数：460679，样本数量：1090 - 划分名称：validation（验证集），字节数：59023，样本数量：136 - 划分名称：test（测试集），字节数：58282，样本数量：139 下载总大小：220749，数据集总占用大小：577984 - 配置名称：sciarg 特征字段： - 字段名：sentence_id，数据类型：字符串 - 字段名：sentence_text，数据类型：字符串 - 字段名：source_dataset，数据类型：字符串 - 字段名：domain，数据类型：字符串 - 字段名：split，数据类型：字符串 - 字段名：adu_label，论证话语单元（ADU）标签，数据类型：字符串 - 字段名：original_label，数据类型：字符串 - 字段名：confidence，数据类型：64位浮点数 - 字段名：extra（结构体嵌套特征）： - 字段名：doc_id（文档ID），数据类型：字符串 - 字段名：adu_pos（论证话语单元位置索引），数据类型：64位整数数据集划分： - 划分名称：train（训练集），字节数：904340，样本数量：3235 - 划分名称：validation（验证集），字节数：64792，样本数量：228 - 划分名称：test（测试集），字节数：143700，样本数量：521 下载总大小：409098，数据集总占用大小：1112832 - 配置名称：theory-silver-v1 特征字段： - 字段名：sentence_id，数据类型：字符串 - 字段名：sentence_text，数据类型：字符串 - 字段名：source_dataset，数据类型：字符串 - 字段名：domain，数据类型：字符串 - 字段名：split，数据类型：字符串 - 字段名：adu_label，论证话语单元（ADU）标签，数据类型：字符串 - 字段名：original_label，数据类型：字符串 - 字段名：confidence，数据类型：64位浮点数 - 字段名：extra（结构体嵌套特征）： - 字段名：chunk_id（块ID），数据类型：字符串 - 字段名：llm_raw_confidence，大语言模型（LLM）原始置信度，数据类型：64位浮点数 - 字段名：modality（模态），数据类型：字符串 - 字段名：reasoning（推理过程），数据类型：字符串数据集划分： - 划分名称：train（训练集），字节数：3679472，样本数量：9235 下载总大小：1369286，数据集总占用大小：3679472 配置列表： - 配置名称：arxiv-silver 数据文件： - 划分：train（训练集），路径：arxiv-silver/train-* - 划分：validation（验证集），路径：arxiv-silver/validation-* - 划分：test（测试集），路径：arxiv-silver/test-* - 配置名称：csabstruct 数据文件： - 划分：train（训练集），路径：csabstruct/train-* - 划分：validation（验证集），路径：csabstruct/validation-* - 划分：test（测试集），路径：csabstruct/test-* - 配置名称：pubmed_rct 数据文件： - 划分：train（训练集），路径：pubmed_rct/train-* - 划分：validation（验证集），路径：pubmed_rct/validation-* - 划分：test（测试集），路径：pubmed_rct/test-* - 配置名称：qp-silver 数据文件： - 划分：train（训练集），路径：qp-silver/train-* - 划分：validation（验证集），路径：qp-silver/validation-* - 划分：test（测试集），路径：qp-silver/test-* - 配置名称：sciarg 数据文件： - 划分：train（训练集），路径：sciarg/train-* - 划分：validation（验证集），路径：sciarg/validation-* - 划分：test（测试集），路径：sciarg/test-* - 配置名称：theory-silver-v1 数据文件： - 划分：train（训练集），路径：theory-silver-v1/train-*

提供机构：

konsman

5,000+

优质数据集

54 个

任务类型

进入经典数据集