tum-nlp/IDMGSP

Name: tum-nlp/IDMGSP
Creator: tum-nlp
Published: 2024-04-08 16:49:10
License: 暂无描述

Hugging Face2024-04-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tum-nlp/IDMGSP

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于检测机器生成科学论文的基准数据集，基于论文的摘要、引言和结论部分。数据集包含多个配置，每个配置有不同的数据字段和分割。数据集的语言为英语，数据来源包括arXiv、ChatGPT、GPT-2、SCIgen、Galactica和GPT-3等。

提供机构：

tum-nlp

原始信息汇总

数据集概述

数据集名称: A Benchmark Dataset for Identifying Machine-Generated Scientific Papers in the LLM Era (IDMGSP)
数据集大小: 10K<n<100K
语言: 英语
任务类别: 文本分类
标签: 科学论文, 假论文, 科学, 科学文本
数据集配置:
- classifier_input
- tecg
- train+gpt3
- train-cg
- ood_gpt3
- ood_real

包含类似的字段，如id, year, title, abstract, introduction, conclusion, categories, src, label，但src和label的具体值可能有所不同。

5,000+

优质数据集

54 个

任务类型

进入经典数据集