COREX-18text

Name: COREX-18text
Creator: LAION eV
Published: 2024-10-04 18:26:17
License: 暂无描述

Hugging Face2024-10-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/laion/COREX-18text

下载链接

链接失效反馈

官方服务：

资源简介：

CORE-18 Fulltext数据集是CORE提供的第一个维护良好的公共数据集之一，包含大量研究论文及其补充元数据。该数据集特别适用于人工智能、机器学习研究和工程项目，尤其是在自然语言处理领域。数据集涵盖化学、生物学和医学研究等主题，包含英文和中文论文。数据集大小超过220GB，包含9,835,064行数据，每两年更新一次。为避免特殊字符可能带来的问题，数据集未进行文本预处理。README文件还强调了伦理和透明研究的重要性，要求用户在使用数据时承认数据集创建者的贡献。

提供机构：

LAION eV

创建时间：

2024-10-04

原始信息汇总

CORE-18 Fulltext 数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 翻译
- 文本生成
- 句子相似度
- 文本到文本生成
语言:
- 英语
- 中文
标签:
- 化学
- 生物学
- 医学

数据集详情

发布日期: 2018年
大小: 超过220GB（GZIP压缩）
行数: 9,835,064
更新频率: 每两年

数据预处理

文本预处理: 未进行预处理，以避免可能的unicode中断或信息丢失。

使用说明

引用要求: 使用此数据集时，请在相关工作中引用该数据集。

搜集汇总

数据集介绍

构建方式

CORE-18 Full Text数据集的构建源于LAION团队对开放科学的承诺，旨在为公众和开源研究社区提供一个易于访问且维护良好的公共语料库。该数据集未经文本预处理，保留了原始文本中的西里尔字母、拉丁字母及特殊字符，以避免因预处理导致的Unicode中断或信息丢失。数据集每两年更新一次，确保其内容的时效性和广泛性。

特点

CORE-18 Full Text数据集以其庞大的规模和多样性著称，包含超过220GB的压缩数据，涵盖980多万条记录。其内容主要涉及化学、生物学和医学领域，支持多种自然语言处理任务，如翻译、文本生成、句子相似度和文本到文本生成。数据集的原始性和未处理特性使其成为研究复杂文本处理的理想选择，同时也为跨语言和跨领域研究提供了丰富的资源。

使用方法

使用CORE-18 Full Text数据集时，研究人员可直接下载压缩文件并解压以获取原始文本数据。由于数据集未经预处理，用户需根据具体研究需求进行数据清洗和格式化。该数据集适用于自然语言处理、机器学习和人工智能领域的研究，尤其在跨语言文本分析和多模态数据处理方面具有显著优势。使用时应遵循伦理准则，并在发表研究成果时引用该数据集以尊重其贡献。

背景与挑战

背景概述

COREX-18text数据集是LAION在2018年推出的一个重要的多语言文本数据集，专注于化学、生物学和医学领域的研究论文全文。该数据集旨在为人工智能、机器学习和自然语言处理研究提供支持，涵盖了大量的研究论文及其补充元数据。作为CORE项目的一部分，COREX-18text数据集通过开放科学倡议，向公众和开源研究社区提供了便捷的访问途径，极大地促进了相关领域的学术研究和技术创新。其庞大的数据规模（超过220GB）和多样化的语言内容（包括英文和中文）使其成为自然语言处理领域的重要资源。

当前挑战

COREX-18text数据集在构建和应用过程中面临多重挑战。首先，数据集涵盖的领域问题主要集中在跨语言文本生成、翻译和文本相似性任务上，这些任务对模型的语义理解和跨语言对齐能力提出了极高要求。其次，由于数据集中包含西里尔字母、拉丁字母及特殊字符，未进行文本预处理以避免Unicode破坏或信息丢失，这增加了数据处理的复杂性。此外，数据集的更新频率较低（每两年一次），可能导致部分数据时效性不足，限制了其在快速发展的研究领域中的应用潜力。

常用场景

经典使用场景

COREX-18text数据集在自然语言处理领域中被广泛应用于机器翻译、文本生成、句子相似度计算以及文本到文本的生成任务。特别是在化学、生物学和医学领域，该数据集为研究人员提供了丰富的多语言文本资源，支持跨学科的研究工作。通过利用这些数据，研究人员能够训练和优化各种语言模型，提升模型在特定领域的表现。

衍生相关工作

基于COREX-18text数据集，许多经典的自然语言处理研究工作得以展开。例如，研究人员利用该数据集开发了多语言机器翻译模型，显著提升了跨语言翻译的准确性。此外，该数据集还支持了文本生成模型的研究，特别是在生成化学和生物学领域的专业文本方面取得了重要进展。这些工作不仅推动了自然语言处理技术的发展，也为跨学科研究提供了重要的数据支持。

数据集最近研究