neuclir/csl

Name: neuclir/csl
Creator: neuclir
Published: 2023-07-05 20:02:54
License: 暂无描述

Hugging Face2023-07-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/neuclir/csl

下载链接

链接失效反馈

官方服务：

资源简介：

CSL是一个大规模的中文科学文献数据集，包含多个学术领域的论文标题、摘要和关键词。数据集还提供了这些文档的英文翻译版本。每个文档都有唯一的标识符，以及详细的分类和学术领域信息，部分信息还提供了英文翻译。该数据集基于Apache 2.0许可证，并可通过HuggingFace数据集库加载使用。

CSL is a large-scale Chinese scientific literature dataset that contains paper titles, abstracts and keywords across multiple academic disciplines. The dataset also provides English translated versions of these documents. Each document is assigned a unique identifier, alongside detailed classification and academic domain information, with some of this information also available in English. This dataset is licensed under Apache 2.0 and can be loaded and utilized via the HuggingFace Datasets library.

提供机构：

neuclir

原始信息汇总

CSL 数据集概述

数据集描述

CSL（Chinese Scientific Literature Dataset）是一个包含中文论文标题、摘要、关键词的数据集，涵盖多个学术领域。

数据集摘要

内容: 包含论文的标题、摘要、关键词。
语言: 中文和英文翻译。

数据集结构

数据实例

分割	文档数量
`csl`	396k
`en_translation`	396k

数据字段

doc_id: 文档唯一标识符。
title: 论文标题。
abstract: 论文摘要。
keywords: 与论文相关的关键词。
category: 论文的广义分类。
category_eng: 广义分类的英文翻译。
discipline: 学术学科。
discipline_eng: 学术学科的英文翻译。

en_translation 包含由Google翻译服务翻译的文档，所有文本为英文，因此省略了 category_eng 和 discipline_eng 字段。

数据集使用

使用 🤗 Datasets 加载数据集的示例代码：

python from datasets import load_dataset

dataset = load_dataset(neuclir/csl)[csl]

许可证与引用

许可证: Apache 2.0

引用信息：

@inproceedings{li-etal-2022-csl, title = "{CSL}: A Large-scale {C}hinese Scientific Literature Dataset", author = "Li, Yudong and Zhang, Yuqing and Zhao, Zhe and Shen, Linlin and Liu, Weijie and Mao, Weiquan and Zhang, Hui", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", address = "Gyeongju, Republic of Korea", publisher = "International Committee on Computational Linguistics", url = "https://aclanthology.org/2022.coling-1.344", pages = "3917--3923", }

搜集汇总

数据集介绍

构建方式

CSL数据集的构建基于中国科学文献，涵盖了多个学术领域的论文标题、摘要和关键词。该数据集通过扩展原始的CSL数据集，增加了文档的唯一标识符（doc_id），并通过Google翻译服务提供了英文翻译版本。此外，数据集还包括了类别和学科的英文翻译，由母语为英语的人员进行校对，并进行了基本的去重处理。

特点

CSL数据集的特点在于其大规模的中文科学文献覆盖，包含详细的论文元数据，如标题、摘要、关键词、类别和学科信息。此外，数据集提供了中英文双语版本，便于跨语言研究。数据集的结构清晰，便于进行文本检索和文档检索任务。

使用方法

使用CSL数据集时，可以通过🤗 Datasets库加载数据。首先，导入load_dataset函数，然后指定数据集名称'neuclir/csl'，选择所需的分区（如'csl'或'en_translation'）。数据集的每个实例包含文档的唯一标识符、标题、摘要、关键词、类别和学科信息，适合用于文本检索和相关研究。

背景与挑战

背景概述

CSL（Chinese Scientific Literature Dataset）是由Yudong Li等人于2022年创建的大规模中文科学文献数据集，旨在促进中文科学文献的检索与分析研究。该数据集包含了来自多个学术领域的论文标题、摘要、关键词等信息，涵盖了中文及英文翻译版本。CSL的发布不仅丰富了中文科学文献的资源库，还为跨语言信息检索、学术文本分析等领域的研究提供了宝贵的数据支持。通过引入英文翻译和详细的分类信息，CSL为全球研究者提供了更便捷的访问途径，推动了中文科学文献的国际化研究。

当前挑战

CSL数据集在构建过程中面临多项挑战。首先，跨语言信息检索的准确性是一个关键问题，尤其是中文与英文之间的翻译质量直接影响检索效果。其次，数据集的规模庞大，如何高效地进行去重和分类处理也是一大挑战。此外，学术文献的多样性和专业性要求数据集在分类和标注时具备高度的精确性，以确保研究者能够准确获取所需信息。最后，随着科学文献的不断更新，如何持续维护和扩展数据集的内容也是一个长期挑战。

常用场景

经典使用场景

CSL数据集在科学文献检索领域具有广泛的应用，尤其是在中文科学文献的自动摘要生成、关键词提取以及跨语言检索等任务中表现尤为突出。通过该数据集，研究者可以训练模型以自动生成高质量的文献摘要，提取关键信息，并实现中文与英文文献之间的无缝检索，从而极大地提升了科学文献的利用效率。

实际应用

在实际应用中，CSL数据集被广泛用于科研文献管理系统、学术搜索引擎以及智能文献推荐系统中。例如，科研人员可以通过该数据集训练的模型快速检索到相关的中文文献，并获取其英文翻译，从而跨越语言障碍，提升科研效率。此外，该数据集还支持学术出版机构进行文献质量评估和内容分析，为学术研究提供了强有力的支持。

衍生相关工作

基于CSL数据集，研究者们开发了多种先进的自然语言处理模型和算法。例如，有研究利用该数据集进行跨语言信息检索模型的训练，显著提升了中文文献的全球可见性。此外，还有工作专注于文献摘要生成和关键词提取，推动了自动文摘技术的发展。这些衍生工作不仅丰富了中文科学文献的处理工具，也为全球科研合作提供了新的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集