bakhitovd/ML_arxiv

Name: bakhitovd/ML_arxiv
Creator: bakhitovd
Published: 2023-05-19 21:47:33
License: 暂无描述

Hugging Face2023-05-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bakhitovd/ML_arxiv

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含32,621个实例，这些实例是从ArXiv存储库中的科学论文和摘要中选出的，特别关注与机器学习描述最接近的文章。数据集支持文本摘要任务，特别是用于微调变换器模型进行摘要。数据集中的文本为英文，每个实例包括一篇科学论文及其摘要。数据集分为训练、验证和测试子集。创建方法涉及使用SciBERT模型的句子嵌入和K-means聚类算法。数据集是Scientific papers数据集的子集，可能有助于提高机器学习研究文章摘要模型的质量，但也可能存在偏见和限制。

提供机构：

bakhitovd

原始信息汇总

数据集概述

数据集名称

ML Articles Subset of Scientific Papers

数据集描述

该数据集包含32,621个来自ArXiv仓库的科学论文及其摘要的实例，特别关注与机器学习相关的文章。这些文章通过使用SciBERT模型的句子嵌入和K-means聚类算法进行选择，以确保它们在语义、词汇、结构和意义上与描述机器学习的文章最为接近。

支持的任务

数据集主要支持文本摘要任务，特别是用于微调Transformer模型以进行摘要生成。

语言

数据集中的文本均为英语。

数据集结构

数据实例

每个实例包括一篇科学论文及其摘要，均以英语提供。

数据字段

article: 科学论文的全文。
abstract: 论文的摘要。

数据分割

数据集被分为：

训练集：30,280篇文章
验证集：1,196篇文章
测试集：1,145篇文章

数据集创建

方法

数据集的创建使用了SciBERT模型的句子嵌入，并通过K-means聚类算法将这些嵌入聚类成6个集群。通过余弦相似度选择最接近机器学习文章的集群来形成此数据集。

源数据

该数据集是Scientific Papers数据集的一个子集，源数据来自ArXiv仓库的科学论文。

社会影响

此数据集有助于提高机器学习研究文章摘要模型的质量，从而使这类内容更易于访问。

偏见与局限性

由于数据集专注于机器学习文章，它可能不代表科学论文的一般情况或其他特定领域。
根据特定的选择方法，数据集可能不包含所有机器学习文章，也可能无意中包含非机器学习文章。

5,000+

优质数据集

54 个

任务类型

进入经典数据集