orieg/elsevier-oa-cc-by
收藏Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/orieg/elsevier-oa-cc-by
下载链接
链接失效反馈官方服务:
资源简介:
Elsevier OA CC-By数据集是一个包含40,091篇开放获取(OA)CC-BY许可的文章的语料库,涵盖了Elsevier期刊的多个学科。这些文章发表于2014年至2020年之间,并被分类为27个中级ASJC代码(学科分类)。数据集支持多种NLP任务,如填充掩码、文本摘要和文本分类。数据集的结构包括文档ID、元数据、摘要、正文文本、参考文献等字段。数据集的创建目的是支持NLP和ML研究,提供了跨学科的大规模研究数据。
Elsevier OA CC-By Dataset is a corpus consisting of 40,091 open access (OA) articles licensed under CC-BY, covering multiple disciplines of Elsevier journals. These articles were published between 2014 and 2020 and categorized into 27 mid-level ASJC codes (subject classifications). The dataset supports a variety of natural language processing (NLP) tasks, such as masked language modeling, text summarization and text classification. The dataset structure includes fields such as document ID, metadata, abstract, full text and references. The dataset is developed to support NLP and machine learning (ML) research, providing large-scale cross-disciplinary research data.
提供机构:
orieg
原始信息汇总
数据集概述
数据集名称
Elsevier OA CC-By
数据集摘要
Elsevier OA CC-By是一个包含40,091篇开放获取CC-BY文章的语料库,涵盖2014年至2020年发表的文章,涉及27个中级别ASJC代码(学科分类)。该数据集支持NLP和ML研究,包括全文文章。
语言
英语 (en)
许可
CC BY 4.0
数据集结构
数据实例
数据集中的每个实例包含以下字段:
- docId:文档标识符,唯一对应于文档。
- metadata:包含标题、作者列表、ISSN、卷、页码、出版年份、DOI、PMID、开放访问状态、学科领域、关键词和ASJC代码。
- abstract:作者提供的文档摘要。
- body_text:文档的全文,已按句子边界分割。
- bib_entries:文档中所有引用的完整列表及其元数据。
- author_highlights:作者提供的高亮,覆盖61.31%的文章。
数据字段
- title:文档标题,100%覆盖。
- abstract:文档摘要,99.25%覆盖。
- keywords:文档关键词,100%覆盖。
- asjc:文档学科分类,100%覆盖。
- subjareas:文档主题分类,100%覆盖。
- body_text:文档全文,100%覆盖。
- author_highlights:作者高亮,61.31%覆盖。
数据分割
- 训练集:32,072篇文章。
- 测试集:4,009篇文章。
- 验证集:4,008篇文章。
支持的任务
- fill-mask
- summarization
- text-classification
数据集创建
源数据
- 初始数据收集和规范化:数据收集于2020年6月25日。
- 源语言生产者:详情请参阅原始论文。
注释
- 注释过程:详情待补充。
- 注释者:详情待补充。
使用数据的考虑
- 社会影响:详情待补充。
- 偏见讨论:详情待补充。
- 其他已知限制:详情待补充。
附加信息
- 数据集管理员:详情待补充。
- 许可信息:CC BY 4.0。
- 引用信息:请参阅提供的引用格式。
- 贡献者:感谢@orieg添加此数据集。
搜集汇总
数据集介绍

构建方式
Elsevier OA CC-By数据集构建于2020年6月25日,涵盖了2014年至2020年间Elsevier期刊中40,091篇开放获取的CC-BY许可文章。这些文章经过专家生成的语言处理,确保了数据的准确性和专业性。数据集的结构化处理包括对文章全文的分句处理,便于研究项目中的使用。每篇文章的元数据、摘要、关键词、学科分类等信息均被详细记录,确保了数据的完整性和可用性。
特点
Elsevier OA CC-By数据集的特点在于其跨学科的广泛覆盖,涵盖了27个中级的ASJC学科分类。数据集中的每篇文章都包含了详细的元数据、作者信息、出版年份、DOI等,以及作者提供的摘要和关键词。此外,61%的文章还包含了作者提供的高亮总结,这些总结通常由4到6句话组成,旨在概括文章的核心发现和结果。数据集的结构化处理使得每篇文章的全文被分句处理,便于在自然语言处理和机器学习研究中的使用。
使用方法
Elsevier OA CC-By数据集适用于多种自然语言处理和机器学习任务,如文本分类、摘要生成和掩码语言建模等。数据集的结构化格式使得研究者可以轻松地访问和使用文章的全文、摘要、关键词和元数据。通过提供的docId,研究者可以直接访问文章的原始URL,进一步获取详细信息。数据集的分割方式包括训练集、测试集和验证集,便于模型训练和评估。此外,数据集中的作者高亮总结可以作为文本摘要任务的参考,提升模型的表现。
背景与挑战
背景概述
Elsevier OA CC-By数据集由Daniel James Kershaw和R. Koeling于2020年创建,旨在为自然语言处理(NLP)和机器学习(ML)研究提供一个跨学科的大规模开放获取(OA)科学文献语料库。该数据集包含2014年至2020年间发表的40,091篇CC-BY许可的开放获取文章,涵盖了27个中等级别的ASJC学科分类。这些文章不仅包含全文,还附带了元数据和参考文献的详细信息,为研究者提供了丰富的资源以支持多种NLP任务,如文本分类、摘要生成和掩码语言建模。该数据集的发布标志着科学文献数据在开放获取和跨学科研究中的重要性,为相关领域的研究提供了新的视角和工具。
当前挑战
Elsevier OA CC-By数据集在构建和应用过程中面临多重挑战。首先,数据集的跨学科性质要求对不同领域的科学文献进行标准化处理,以确保数据的一致性和可用性。其次,尽管数据集涵盖了广泛的学科,但某些领域的文献数量相对较少,可能导致模型在这些领域的表现不佳。此外,数据集中部分文章的作者摘要覆盖率仅为61%,这限制了基于摘要的任务的全面性。在构建过程中,如何有效提取和结构化全文信息,尤其是参考文献和章节信息,也是一个技术难点。最后,数据集的开放获取性质虽然增加了其可用性,但也带来了版权和隐私保护的问题,需要在数据使用过程中加以注意。
常用场景
经典使用场景
Elsevier OA CC-By数据集广泛应用于自然语言处理(NLP)和机器学习(ML)研究领域,特别是在文本分类、摘要生成和掩码语言建模等任务中。其跨学科的丰富数据为研究者提供了多样化的实验素材,能够有效支持大规模模型的训练与评估。
实际应用
在实际应用中,Elsevier OA CC-By数据集被广泛用于学术搜索引擎优化、智能文献推荐系统以及科研趋势分析等领域。其丰富的元数据和全文内容为构建高效的知识发现工具提供了坚实基础,显著提升了科研信息检索的准确性和效率。
衍生相关工作
基于Elsevier OA CC-By数据集,研究者开发了多种先进的NLP模型和算法,如基于Transformer的文本摘要生成器和跨学科文本分类器。这些工作不仅推动了NLP技术的发展,还为学术文献的自动化处理和分析提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成



