five

Timbrt/SciOL-text

收藏
Hugging Face2024-01-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Timbrt/SciOL-text
下载链接
链接失效反馈
官方服务:
资源简介:
Scientific Openly-Licensed Publications (SciOL) 是科学领域中最大的公开许可的多模态模型预训练语料库,涵盖了材料科学、物理学和计算机科学等多个科学领域。该数据集包含超过270万篇科学出版物,转换为半结构化数据,并提取了超过140亿个标记的结构化文本。该存储库仅包含SciOL的文本数据,图像和标题数据需访问另一个链接。

Scientific Openly-Licensed Publications (SciOL) 是科学领域中最大的公开许可的多模态模型预训练语料库,涵盖了材料科学、物理学和计算机科学等多个科学领域。该数据集包含超过270万篇科学出版物,转换为半结构化数据,并提取了超过140亿个标记的结构化文本。该存储库仅包含SciOL的文本数据,图像和标题数据需访问另一个链接。
提供机构:
Timbrt
原始信息汇总

科学开放许可出版物数据集(SciOL)

概述

科学开放许可出版物(SciOL)是科学领域中最大的开放许可预训练多模态模型语料库,涵盖材料科学、物理学和计算机科学等多个学科。该数据集包含超过270万篇科学出版物,转换为半结构化数据,并包含超过140亿个提取和结构化的文本标记。

数据格式

数据集的注释以JSON格式提供,文件按组压缩为zip文件。提供了一个基本索引,以便通过DOI、PMID或DOAJ ID以及关键词查找注释。

注释结构

注释的结构如下: json { "$schema": "http://json-schema.org/draft-07/schema#", "type": "object", "properties": { "doi": { "type": "string" }, "keywords": { "type": "array", "items": { "type": "string" } }, "license": { "type": "string" }, "article": { "type": "object", "properties": { "title": { "type": "string" }, "authors": { "type": "array", "items": { "type": "string" } }, "abstract": { "type": "string" }, "body_text": { "type": "string" }, "bibliography": { "type": "string" } } } } }

引用

如果您在科学研究中使用了该数据集,请引用以下论文:

@InProceedings{Tarsi_2024_WACV, author = {Tarsi, Tim and Adel, Heike and Metzen, Jan Hendrik and Zhang, Dan and Finco, Matteo and Friedrich, Annemarie}, title = {SciOL and MuLMS-Img: Introducing a Large-Scale Multimodal Scientific Dataset and Models for Image-Text Tasks in the Scientific Domain}, booktitle = {Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)}, month = {January}, year = {2024}, pages = {4560-4571} }

许可

SciOL语料库在CC BY 4.0许可下发布。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作