five

konsman/adu-corpus

收藏
Hugging Face2026-02-25 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/konsman/adu-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: arxiv-silver features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: chunk_id dtype: string - name: llm_raw_confidence dtype: float64 - name: modality dtype: string - name: reasoning dtype: string splits: - name: train num_bytes: 5293170 num_examples: 12266 - name: validation num_bytes: 662993 num_examples: 1533 - name: test num_bytes: 658649 num_examples: 1537 download_size: 2423620 dataset_size: 6614812 - config_name: csabstruct features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: abstract_id dtype: string - name: sentence_pos dtype: int64 splits: - name: train num_bytes: 3107708 num_examples: 10983 - name: validation num_bytes: 589878 num_examples: 1959 - name: test num_bytes: 363914 num_examples: 1288 download_size: 1402356 dataset_size: 4061500 - config_name: pubmed_rct features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: pmid dtype: string - name: sentence_pos dtype: int64 splits: - name: train num_bytes: 480507305 num_examples: 1761809 - name: validation num_bytes: 65114235 num_examples: 229084 - name: test num_bytes: 59310765 num_examples: 220968 download_size: 193209563 dataset_size: 604932305 - config_name: qp-silver features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: chunk_id dtype: string - name: llm_raw_confidence dtype: float64 - name: modality dtype: string - name: reasoning dtype: string splits: - name: train num_bytes: 460679 num_examples: 1090 - name: validation num_bytes: 59023 num_examples: 136 - name: test num_bytes: 58282 num_examples: 139 download_size: 220749 dataset_size: 577984 - config_name: sciarg features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: doc_id dtype: string - name: adu_pos dtype: int64 splits: - name: train num_bytes: 904340 num_examples: 3235 - name: validation num_bytes: 64792 num_examples: 228 - name: test num_bytes: 143700 num_examples: 521 download_size: 409098 dataset_size: 1112832 - config_name: theory-silver-v1 features: - name: sentence_id dtype: string - name: sentence_text dtype: string - name: source_dataset dtype: string - name: domain dtype: string - name: split dtype: string - name: adu_label dtype: string - name: original_label dtype: string - name: confidence dtype: float64 - name: extra struct: - name: chunk_id dtype: string - name: llm_raw_confidence dtype: float64 - name: modality dtype: string - name: reasoning dtype: string splits: - name: train num_bytes: 3679472 num_examples: 9235 download_size: 1369286 dataset_size: 3679472 configs: - config_name: arxiv-silver data_files: - split: train path: arxiv-silver/train-* - split: validation path: arxiv-silver/validation-* - split: test path: arxiv-silver/test-* - config_name: csabstruct data_files: - split: train path: csabstruct/train-* - split: validation path: csabstruct/validation-* - split: test path: csabstruct/test-* - config_name: pubmed_rct data_files: - split: train path: pubmed_rct/train-* - split: validation path: pubmed_rct/validation-* - split: test path: pubmed_rct/test-* - config_name: qp-silver data_files: - split: train path: qp-silver/train-* - split: validation path: qp-silver/validation-* - split: test path: qp-silver/test-* - config_name: sciarg data_files: - split: train path: sciarg/train-* - split: validation path: sciarg/validation-* - split: test path: sciarg/test-* - config_name: theory-silver-v1 data_files: - split: train path: theory-silver-v1/train-* ---

数据集信息: - 配置名称:arxiv-silver 特征字段: - 字段名:sentence_id,数据类型:字符串 - 字段名:sentence_text,数据类型:字符串 - 字段名:source_dataset,数据类型:字符串 - 字段名:domain,数据类型:字符串 - 字段名:split,数据类型:字符串 - 字段名:adu_label,论证话语单元(Argumentative Discourse Unit, ADU)标签,数据类型:字符串 - 字段名:original_label,数据类型:字符串 - 字段名:confidence,数据类型:64位浮点数 - 字段名:extra(结构体嵌套特征): - 字段名:chunk_id(块ID),数据类型:字符串 - 字段名:llm_raw_confidence,大语言模型(Large Language Model, LLM)原始置信度,数据类型:64位浮点数 - 字段名:modality(模态),数据类型:字符串 - 字段名:reasoning(推理过程),数据类型:字符串 数据集划分: - 划分名称:train(训练集),字节数:5293170,样本数量:12266 - 划分名称:validation(验证集),字节数:662993,样本数量:1533 - 划分名称:test(测试集),字节数:658649,样本数量:1537 下载总大小:2423620,数据集总占用大小:6614812 - 配置名称:csabstruct 特征字段: - 字段名:sentence_id,数据类型:字符串 - 字段名:sentence_text,数据类型:字符串 - 字段名:source_dataset,数据类型:字符串 - 字段名:domain,数据类型:字符串 - 字段名:split,数据类型:字符串 - 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串 - 字段名:original_label,数据类型:字符串 - 字段名:confidence,数据类型:64位浮点数 - 字段名:extra(结构体嵌套特征): - 字段名:abstract_id(摘要ID),数据类型:字符串 - 字段名:sentence_pos(句子位置索引),数据类型:64位整数 数据集划分: - 划分名称:train(训练集),字节数:3107708,样本数量:10983 - 划分名称:validation(验证集),字节数:589878,样本数量:1959 - 划分名称:test(测试集),字节数:363914,样本数量:1288 下载总大小:1402356,数据集总占用大小:4061500 - 配置名称:pubmed_rct 特征字段: - 字段名:sentence_id,数据类型:字符串 - 字段名:sentence_text,数据类型:字符串 - 字段名:source_dataset,数据类型:字符串 - 字段名:domain,数据类型:字符串 - 字段名:split,数据类型:字符串 - 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串 - 字段名:original_label,数据类型:字符串 - 字段名:confidence,数据类型:64位浮点数 - 字段名:extra(结构体嵌套特征): - 字段名:pmid(PubMed编号),数据类型:字符串 - 字段名:sentence_pos(句子位置索引),数据类型:64位整数 数据集划分: - 划分名称:train(训练集),字节数:480507305,样本数量:1761809 - 划分名称:validation(验证集),字节数:65114235,样本数量:229084 - 划分名称:test(测试集),字节数:59310765,样本数量:220968 下载总大小:193209563,数据集总占用大小:604932305 - 配置名称:qp-silver 特征字段: - 字段名:sentence_id,数据类型:字符串 - 字段名:sentence_text,数据类型:字符串 - 字段名:source_dataset,数据类型:字符串 - 字段名:domain,数据类型:字符串 - 字段名:split,数据类型:字符串 - 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串 - 字段名:original_label,数据类型:字符串 - 字段名:confidence,数据类型:64位浮点数 - 字段名:extra(结构体嵌套特征): - 字段名:chunk_id(块ID),数据类型:字符串 - 字段名:llm_raw_confidence,大语言模型(LLM)原始置信度,数据类型:64位浮点数 - 字段名:modality(模态),数据类型:字符串 - 字段名:reasoning(推理过程),数据类型:字符串 数据集划分: - 划分名称:train(训练集),字节数:460679,样本数量:1090 - 划分名称:validation(验证集),字节数:59023,样本数量:136 - 划分名称:test(测试集),字节数:58282,样本数量:139 下载总大小:220749,数据集总占用大小:577984 - 配置名称:sciarg 特征字段: - 字段名:sentence_id,数据类型:字符串 - 字段名:sentence_text,数据类型:字符串 - 字段名:source_dataset,数据类型:字符串 - 字段名:domain,数据类型:字符串 - 字段名:split,数据类型:字符串 - 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串 - 字段名:original_label,数据类型:字符串 - 字段名:confidence,数据类型:64位浮点数 - 字段名:extra(结构体嵌套特征): - 字段名:doc_id(文档ID),数据类型:字符串 - 字段名:adu_pos(论证话语单元位置索引),数据类型:64位整数 数据集划分: - 划分名称:train(训练集),字节数:904340,样本数量:3235 - 划分名称:validation(验证集),字节数:64792,样本数量:228 - 划分名称:test(测试集),字节数:143700,样本数量:521 下载总大小:409098,数据集总占用大小:1112832 - 配置名称:theory-silver-v1 特征字段: - 字段名:sentence_id,数据类型:字符串 - 字段名:sentence_text,数据类型:字符串 - 字段名:source_dataset,数据类型:字符串 - 字段名:domain,数据类型:字符串 - 字段名:split,数据类型:字符串 - 字段名:adu_label,论证话语单元(ADU)标签,数据类型:字符串 - 字段名:original_label,数据类型:字符串 - 字段名:confidence,数据类型:64位浮点数 - 字段名:extra(结构体嵌套特征): - 字段名:chunk_id(块ID),数据类型:字符串 - 字段名:llm_raw_confidence,大语言模型(LLM)原始置信度,数据类型:64位浮点数 - 字段名:modality(模态),数据类型:字符串 - 字段名:reasoning(推理过程),数据类型:字符串 数据集划分: - 划分名称:train(训练集),字节数:3679472,样本数量:9235 下载总大小:1369286,数据集总占用大小:3679472 配置列表: - 配置名称:arxiv-silver 数据文件: - 划分:train(训练集),路径:arxiv-silver/train-* - 划分:validation(验证集),路径:arxiv-silver/validation-* - 划分:test(测试集),路径:arxiv-silver/test-* - 配置名称:csabstruct 数据文件: - 划分:train(训练集),路径:csabstruct/train-* - 划分:validation(验证集),路径:csabstruct/validation-* - 划分:test(测试集),路径:csabstruct/test-* - 配置名称:pubmed_rct 数据文件: - 划分:train(训练集),路径:pubmed_rct/train-* - 划分:validation(验证集),路径:pubmed_rct/validation-* - 划分:test(测试集),路径:pubmed_rct/test-* - 配置名称:qp-silver 数据文件: - 划分:train(训练集),路径:qp-silver/train-* - 划分:validation(验证集),路径:qp-silver/validation-* - 划分:test(测试集),路径:qp-silver/test-* - 配置名称:sciarg 数据文件: - 划分:train(训练集),路径:sciarg/train-* - 划分:validation(验证集),路径:sciarg/validation-* - 划分:test(测试集),路径:sciarg/test-* - 配置名称:theory-silver-v1 数据文件: - 划分:train(训练集),路径:theory-silver-v1/train-*
提供机构:
konsman
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作