Elsevier OA CC-BY Corpus

Mendeley Data2020-09-16 更新2026-04-09 收录

下载链接：

https://data.mendeley.com/datasets/zm33cdndxs

下载链接

链接失效反馈

官方服务：

资源简介：

This is a corpus of 40k (40,001) open access (OA) CC-BY articles from across Elsevier’s journals represent the first cross-discipline research of data at this scale to support NLP and ML research. This dataset was released to support the development of ML and NLP models targeting science articles from across all research domains. While the release builds on other datasets designed for specific domains and tasks, it will allow for similar datasets to be derived or for the development of models which can be applied and tested across domains.

本语料库涵盖爱思唯尔（Elsevier）旗下全系列期刊的40001篇（即4万篇）知识共享署名许可（CC-BY）开放获取（Open Access, OA）文章，是当前首个以此规模构建的跨学科科研数据语料库，可为自然语言处理（Natural Language Processing, NLP）与机器学习（Machine Learning, ML）领域的研究提供支撑。本数据集的发布旨在支撑面向全科研领域学术文章的机器学习与自然语言处理模型研发。尽管本次发布依托于其他面向特定领域与任务的数据集，但它既支持衍生出同类定制数据集，也可用于研发可跨多领域应用与测试的相关模型。

创建时间：

2020-09-16

5,000+

优质数据集

54 个

任务类型

进入经典数据集