bakhitovd/ML_arxiv
收藏Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bakhitovd/ML_arxiv
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含32,621个实例,这些实例是从ArXiv存储库中的科学论文和摘要中选出的,特别关注与机器学习描述最接近的文章。数据集支持文本摘要任务,特别是用于微调变换器模型进行摘要。数据集中的文本为英文,每个实例包括一篇科学论文及其摘要。数据集分为训练、验证和测试子集。创建方法涉及使用SciBERT模型的句子嵌入和K-means聚类算法。数据集是Scientific papers数据集的子集,可能有助于提高机器学习研究文章摘要模型的质量,但也可能存在偏见和限制。
提供机构:
bakhitovd
原始信息汇总
数据集概述
数据集名称
ML Articles Subset of Scientific Papers
数据集描述
该数据集包含32,621个来自ArXiv仓库的科学论文及其摘要的实例,特别关注与机器学习相关的文章。这些文章通过使用SciBERT模型的句子嵌入和K-means聚类算法进行选择,以确保它们在语义、词汇、结构和意义上与描述机器学习的文章最为接近。
支持的任务
数据集主要支持文本摘要任务,特别是用于微调Transformer模型以进行摘要生成。
语言
数据集中的文本均为英语。
数据集结构
数据实例
每个实例包括一篇科学论文及其摘要,均以英语提供。
数据字段
article: 科学论文的全文。abstract: 论文的摘要。
数据分割
数据集被分为:
- 训练集:30,280篇文章
- 验证集:1,196篇文章
- 测试集:1,145篇文章
数据集创建
方法
数据集的创建使用了SciBERT模型的句子嵌入,并通过K-means聚类算法将这些嵌入聚类成6个集群。通过余弦相似度选择最接近机器学习文章的集群来形成此数据集。
源数据
该数据集是Scientific Papers数据集的一个子集,源数据来自ArXiv仓库的科学论文。
社会影响
此数据集有助于提高机器学习研究文章摘要模型的质量,从而使这类内容更易于访问。
偏见与局限性
- 由于数据集专注于机器学习文章,它可能不代表科学论文的一般情况或其他特定领域。
- 根据特定的选择方法,数据集可能不包含所有机器学习文章,也可能无意中包含非机器学习文章。



