recursal/arXiv-CC0-v0.5

Name: recursal/arXiv-CC0-v0.5
Creator: recursal
Published: 2024-06-13 01:32:54
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/recursal/arXiv-CC0-v0.5

下载链接

链接失效反馈

官方服务：

资源简介：

ArXiv CC0是一个从arXiv网站上抓取的原始数据集，经过清理和过滤，主要包含英文文本，总token数约为2.77B（llama-2-7b-chat-tokenizer）或2.43B（RWKV Tokenizer）。数据集由M8than整理，由Recursal.ai资助，并共享给公众使用。数据集的处理包括从PDF中提取文本、过滤和转换文本以生成可读的输出。数据集的分割为final，包含最终的jsonl文件。

提供机构：

recursal

原始信息汇总

数据集卡片 for ArXiv-CC0

数据集详情

数据集描述

ArXiv CC0 是一个经过清洗的数据集，基于2024年1月的arXiv元数据进行原始抓取。该数据集包含约2.77B个令牌（使用llama-2-7b-chat-tokenizer）或2.43B个令牌（使用RWKV Tokenizer），主要为英语语言。

策划者： M8than
资助者： Recursal.ai
共享者： M8than
语言（NLP）： 主要为英语
许可证： cc-by-sa-4.0

数据集来源

源数据： https://www.kaggle.com/datasets/Cornell-University/arxiv（论文的元数据）
源数据： https://arxiv.org（从这里下载的PDF文件）

处理和过滤

数据集中的条目仅包含CC0许可的内容，这些内容均为公共领域。PDF文件中的文本被提取出来（非通过OCR，文本是嵌入的）。文档随后通过我们的管道进行过滤和文本转换处理，以生成可读的输出，过滤掉过多的换行符或空格，并转换为Markdown格式。

如何运行脚本：

从Kaggle下载元数据json文件
调整顶部的变量后运行process_metadata_PDFs.py
调整顶部的变量后运行filter.py

数据分割

final
- 包含分块的最终jsonl文件。

许可证信息

此版本仅包含CC-Zero许可的ArXiv内容。

引用信息

@ONLINE{arxiv-cc0, title = {arXiv-CC0-v0.5}, author = {M8than, recursal.ai}, year = {2024}, howpublished = {url{https://huggingface.co/datasets/recursal/arXiv-CC0-v0.5}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集