chemrXiv-pdf
收藏魔搭社区2025-12-04 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/laion/chemrXiv-pdf
下载链接
链接失效反馈官方服务:
资源简介:
<div align="center">
<img src="ChemrXiv.jpg" alt="ChemrXiv Pdf" width="500"/>
<p><b>ChemrXiv Pdf</b></p>
</div>
**Introducing ChemrXiv Pdf**, a dataset that offers access to all PDFs published until September 15, 2024. This resource aims to facilitate artificial intelligence research and the training of domain-specific scientific models.
As part of our efforts to democratize knowledge in the scientific domain, we have compiled this dataset. While most papers included have non-restrictive and open access licenses, certain PDFs may have additional restrictions.
Researchers are encouraged to refer to the metadata uploaded at https://huggingface.co/datasets/laion/chemrxiv_metadata. This metadata provides additional information about each PDF. Please use these papers responsibly in your research.
#### Dataset information
1. **Indexed date:** 15th of September, 2024
2. **Amount of pdfs:** 26,300+
3. **Dataset size:** 73GB
**Did you process/alter these pdfs?**
Short answer: NO. We did not process the pdfs nor extracted them. These pdfs are exactly what can be found on: https://chemrxiv.org/engage/chemrxiv/public-dashboard
**How are the pdfs named?**
Each pdf’s filename is their preprint DOI.
<div align="center">
<img src="ChemrXiv.jpg" alt="ChemrXiv 预印本PDF" width="500"/>
<p><b>ChemrXiv 预印本PDF数据集</b></p>
</div>
**ChemrXiv 预印本PDF数据集**,该数据集可获取截至2024年9月15日发布的全部PDF文件。本资源旨在推动人工智能领域研究及领域专属科学模型的训练工作。
作为我们推动科学领域知识民主化工作的一部分,我们整理了本数据集。尽管收录的大部分论文采用无限制开放获取许可,但部分PDF文件可能存在额外使用限制。
建议研究人员查阅上传至https://huggingface.co/datasets/laion/chemrxiv_metadata的元数据,该元数据可提供每份PDF文件的补充信息。请在研究中合理合规地使用这些论文。
#### 数据集信息
1. **索引日期:** 2024年9月15日
2. **PDF文件总量:** 26300+
3. **数据集总容量:** 73GB
**是否对这些PDF文件进行过处理或修改?**
简短答复:否。我们未对这些PDF文件进行任何处理或提取操作,这些PDF文件与https://chemrxiv.org/engage/chemrxiv/public-dashboard上可获取的内容完全一致。
**PDF文件的命名规则是什么?**
每份PDF文件的文件名均为其预印本数字对象标识符(Digital Object Identifier,DOI)。
提供机构:
maas
创建时间:
2025-10-03



