five

bakhitovd/ML_arxiv

收藏
Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bakhitovd/ML_arxiv
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含32,621个实例,这些实例是从ArXiv存储库中的科学论文和摘要中选出的,特别关注与机器学习描述最接近的文章。数据集支持文本摘要任务,特别是用于微调变换器模型进行摘要。数据集中的文本为英文,每个实例包括一篇科学论文及其摘要。数据集分为训练、验证和测试子集。创建方法涉及使用SciBERT模型的句子嵌入和K-means聚类算法。数据集是Scientific papers数据集的子集,可能有助于提高机器学习研究文章摘要模型的质量,但也可能存在偏见和限制。
提供机构:
bakhitovd
原始信息汇总

数据集概述

数据集名称

ML Articles Subset of Scientific Papers

数据集描述

该数据集包含32,621个来自ArXiv仓库的科学论文及其摘要的实例,特别关注与机器学习相关的文章。这些文章通过使用SciBERT模型的句子嵌入和K-means聚类算法进行选择,以确保它们在语义、词汇、结构和意义上与描述机器学习的文章最为接近。

支持的任务

数据集主要支持文本摘要任务,特别是用于微调Transformer模型以进行摘要生成。

语言

数据集中的文本均为英语。

数据集结构

数据实例

每个实例包括一篇科学论文及其摘要,均以英语提供。

数据字段

  • article: 科学论文的全文。
  • abstract: 论文的摘要。

数据分割

数据集被分为:

  • 训练集:30,280篇文章
  • 验证集:1,196篇文章
  • 测试集:1,145篇文章

数据集创建

方法

数据集的创建使用了SciBERT模型的句子嵌入,并通过K-means聚类算法将这些嵌入聚类成6个集群。通过余弦相似度选择最接近机器学习文章的集群来形成此数据集。

源数据

该数据集是Scientific Papers数据集的一个子集,源数据来自ArXiv仓库的科学论文。

社会影响

此数据集有助于提高机器学习研究文章摘要模型的质量,从而使这类内容更易于访问。

偏见与局限性

  • 由于数据集专注于机器学习文章,它可能不代表科学论文的一般情况或其他特定领域。
  • 根据特定的选择方法,数据集可能不包含所有机器学习文章,也可能无意中包含非机器学习文章。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作