five

BASF-AI/ChemRxiv-Paragraphs

收藏
Hugging Face2025-11-14 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/BASF-AI/ChemRxiv-Paragraphs
下载链接
链接失效反馈
官方服务:
资源简介:
ChemRxiv段落数据集包含来自ChemRxiv论文的段落,这些论文遵循CC BY 4.0和CC BY-NC 4.0许可。数据集通过Grobid工具提取段落,并经过过滤以确保段落的平均日志词概率。数据集包含的训练集段落来自5,848篇CC BY 4.0许可的论文和3,082篇CC BY-NC 4.0许可的论文。

This dataset consists of paragraphs from ChemRxiv papers under **CC BY 4.0** and **CC BY-NC 4.0** licenses. The paragraphs are extracted using the Grobid tool and filtered based on an average log word probability, similar to the approach used in allenai/peS2o. The dataset contains training set paragraphs from 5,848 papers with CC BY 4.0 licenses and 3,082 papers with CC BY-NC 4.0 licenses.
提供机构:
BASF-AI
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作