five

COREX-18

收藏
Hugging Face2024-09-15 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/laion/COREX-18
下载链接
链接失效反馈
官方服务:
资源简介:
COREX-18是一个从2018年版本的CORE数据集中提取的综合性数据集,包含超过8500万条记录。该数据集主要用于RAG应用和科学知识引用类别,保留了关键的元数据,如coreId、标题、作者、出版日期、摘要、关系和年份,但未包含所有元数据以避免复杂性和大量NULL值。数据集未对原始数据进行任何文本清理,保持了原始的摘要和标题的完整性。数据集支持多种语言,包括英语和中文,并涵盖多个领域,如化学、生物学、法律、金融、音乐、艺术和气候。
提供机构:
LAION eV
创建时间:
2024-09-15
原始信息汇总

COREX-18 数据集概述

数据集信息

  • 许可证: Apache 2.0
  • 特征:
    • coreId: 字符串
    • title: 字符串
    • authors: 字符串序列
    • datePublished: 字符串
    • abstract: 字符串
    • relations: 字符串序列
    • year: 整数 (int64)
  • 分割:
    • core_2018: 包含 85,610,399 个样本,占用 113,101,903,827 字节
  • 下载大小: 64,859,628,168 字节
  • 数据集大小: 113,101,903,827 字节
  • 配置:
    • default: 包含 core_2018 分割的数据文件
  • 任务类别:
    • 问答
    • 摘要生成
    • 文本生成
    • 句子相似度
  • 语言:
    • 英语
    • 中文
  • 标签:
    • 化学
    • 生物学
    • 法律
    • 金融
    • 音乐
    • 艺术
    • 气候

数据集描述

  • COREX-18 是从 CORE 数据集的 2018 版本中提取的综合数据集,包含超过 8500 万条记录。
  • 该数据集旨在为研究社区提供开放获取的科学论文,促进高级 RAG 应用和人工智能研究。
  • 数据集保留了关键的元数据,用于跟踪研究论文和理解其基本信息,未进行任何文本清洗处理。
  • 主要应用于 RAG 应用和科学知识引用类别。

注意事项

  • 数据集未包含所有元数据,因复杂性和高 NULL 值比例。
  • 全文版本将很快更新。
搜集汇总
数据集介绍
main_image_url
构建方式
COREX-18数据集基于2018年CORE数据集构建,旨在为研究社区提供开放获取的科学论文资源。该数据集通过整合公开可用的学术文献,保留了论文的核心元数据,如标题、作者、发表日期和摘要等,同时剔除了复杂且包含大量空值的冗余信息。数据集的构建过程严格遵循了原始数据的完整性,未对文本内容进行任何清洗或修改,确保了数据的原始性和真实性。
特点
COREX-18数据集包含超过8500万条记录,涵盖了化学、生物、法律、金融、音乐、艺术和气候等多个领域的学术文献。其核心特点在于保留了关键元数据,如论文的唯一标识符(coreId)、标题、作者列表、发表日期和摘要等,这些信息为追踪研究论文和了解其基本信息提供了重要支持。此外,数据集支持多语言(如英语和中文),并适用于问答系统、文本生成、摘要生成和句子相似度等多种自然语言处理任务。
使用方法
COREX-18数据集主要用于支持RAG(检索增强生成)应用以及科学知识引用相关的研究。研究人员可通过HuggingFace平台下载数据集,并利用其丰富的元数据和文本内容进行实验。数据集的分割方式为单一核心分割(core_2018),用户可直接加载并处理数据文件。由于数据集保留了原始文本的完整性,用户可根据需求进一步清洗或预处理数据,以适配特定的研究任务,如问答系统、文本生成或跨领域知识挖掘。
背景与挑战
背景概述
COREX-18数据集源自2018年版本的CORE数据集,旨在为研究社区提供开放获取的科学论文资源,推动人工智能研究的发展。该数据集由X计划开发,致力于将公开数据整理为可访问且定期更新的数据集。COREX-18包含超过8500万条记录,涵盖了化学、生物学、法律、金融、音乐、艺术和气候等多个领域。其核心研究问题在于如何高效地组织和利用大规模科学文献数据,以支持问答系统、文本摘要、文本生成和句子相似性等任务。该数据集的发布为RAG(检索增强生成)应用和科学知识引用领域提供了重要的数据支持。
当前挑战
COREX-18数据集在构建过程中面临多重挑战。首先,原始CORE数据集中存在大量复杂的元数据和高比例的NULL值,这迫使开发团队在保留关键元数据的同时,舍弃了部分非核心信息,以确保数据的可用性和一致性。其次,数据集的规模庞大,包含超过8500万条记录,这对数据的存储、处理和分发提出了极高的技术要求。此外,由于数据集涉及多领域和多语言(如英语和中文),如何确保数据的跨领域适用性和语言兼容性也是一个重要挑战。最后,尽管数据集未对标题和摘要进行文本清洗以保持原始性,但这可能对后续的自然语言处理任务带来噪声干扰,增加了模型训练的复杂性。
常用场景
经典使用场景
COREX-18数据集在自然语言处理领域中被广泛应用于问答系统、文本摘要和文本生成等任务。其庞大的数据量和多样化的学科覆盖使得研究人员能够训练出更为精准和泛化的模型,特别是在需要跨学科知识融合的场景中,COREX-18提供了丰富的语料支持。
解决学术问题
COREX-18数据集解决了学术研究中跨学科知识整合的难题。通过提供涵盖化学、生物学、法律、金融、音乐、艺术和气候等多个领域的开放获取科学论文,研究人员能够更便捷地进行跨领域知识挖掘和关联分析,从而推动多学科交叉研究的进展。
衍生相关工作
COREX-18数据集催生了一系列基于其数据的经典研究工作,特别是在检索增强生成(RAG)模型和科学文献引用网络分析领域。许多研究利用该数据集构建了高效的文献推荐系统、跨学科知识图谱以及基于大规模语料的预训练语言模型,进一步推动了人工智能在学术研究中的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作