🤗Datasets

github2020-12-04 更新2024-05-31 收录

下载链接：

https://github.com/shantanu0304/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

🤗Datasets是一个轻量级且可扩展的库，用于轻松共享和访问自然语言处理(NLP)及其他领域的数据集和评估指标。它具有与Numpy、Pandas、PyTorch和Tensorflow 2的内置互操作性，轻量级且快速，具有透明和pythonic的API，并能处理大型数据集，默认情况下所有数据集都是内存映射在驱动器上的。

🤗Datasets is a lightweight and extensible library designed for the effortless sharing and accessing of datasets and evaluation metrics in natural language processing (NLP) and other fields. It features built-in interoperability with Numpy, Pandas, PyTorch, and TensorFlow 2, is lightweight and fast, offers a transparent and pythonic API, and is capable of handling large datasets, with all datasets being memory-mapped on the drive by default.

创建时间：

2020-10-04

原始信息汇总

数据集概述

🤗Datasets 是一个轻量级且可扩展的库，用于轻松共享和访问自然语言处理（NLP）及其他领域的数据集和评估指标。该库具有以下特点：

兼容性：与NumPy、Pandas、PyTorch和TensorFlow 2兼容。
性能：轻量级且快速，具有透明和Pythonic的API。
处理大数据：自然地释放用户从RAM内存限制，所有数据集默认内存映射在驱动器上。
智能缓存：无需等待数据多次处理。

数据集和评估指标

🤗Datasets 目前提供对约100个NLP数据集和约10个评估指标的访问，并设计为让社区轻松添加和共享新的数据集和评估指标。用户可以通过实时数据集查看器浏览完整的数据集集合。

使用方法

使用🤗Datasets的主要方法包括：

datasets.list_datasets()：列出可用数据集。
datasets.load_dataset(dataset_name, **kwargs)：实例化一个数据集。
datasets.list_metrics()：列出可用评估指标。
datasets.load_metric(metric_name, **kwargs)：实例化一个评估指标。

安装

🤗Datasets 可以通过PyPi安装，并应在虚拟环境中安装（例如venv或conda）。安装命令如下：

bash pip install datasets

使用示例

python from datasets import list_datasets, load_dataset, list_metrics, load_metric

列出所有可用数据集

print(list_datasets())

加载数据集并打印训练集的第一个示例

squad_dataset = load_dataset(squad) print(squad_dataset[train][0])

列出所有可用评估指标

print(list_metrics())

加载评估指标

squad_metric = load_metric(squad)

注意事项

🤗Datasets 是一个实用库，用于下载和准备公共数据集。使用者需自行确定是否有权根据数据集的许可证使用数据集。如数据集所有者希望更新数据集的任何部分或不希望其数据集包含在此库中，可通过GitHub问题联系。

搜集汇总

数据集介绍

构建方式

🤗Datasets的构建方式基于轻量级且可扩展的库设计，旨在简化自然语言处理（NLP）及其他领域的数据集和评估指标的共享与访问。该库通过动态加载脚本的方式，允许用户按需查询、下载并缓存数据集和评估指标。其核心设计理念是提供一个统一的API，使得数据集和评估指标能够以一致的方式被访问和使用。此外，🤗Datasets还采用了Apache Arrow作为后端序列化工具，确保数据的高效存储与访问。

特点

🤗Datasets具备多项显著特点，使其在NLP领域脱颖而出。首先，该库内置了与NumPy、Pandas、PyTorch和TensorFlow的互操作性，使得用户能够无缝集成这些主流数据处理框架。其次，🤗Datasets以其轻量级和快速的特性著称，提供了透明且符合Python风格的API。此外，该库能够处理大规模数据集，通过内存映射技术有效避免了RAM内存限制的问题。智能缓存机制则确保了数据处理的高效性，避免了重复处理数据的等待时间。

使用方法

使用🤗Datasets极为简便，用户可以通过简单的API调用来访问和管理数据集。主要方法包括`datasets.list_datasets()`用于列出可用数据集，`datasets.load_dataset(dataset_name, **kwargs)`用于加载特定数据集，以及`datasets.list_metrics()`和`datasets.load_metric(metric_name, **kwargs)`用于列出和加载评估指标。用户可以通过这些方法快速获取数据集并进行进一步的分析或模型训练。此外，🤗Datasets还提供了详细的文档和Colab教程，帮助用户快速上手并深入理解库的使用方法。

背景与挑战

背景概述

🤗Datasets是由HuggingFace团队开发的一个轻量级且可扩展的库，旨在简化和促进自然语言处理（NLP）及其他领域的数据集和评估指标的共享与访问。该库起源于对TensorFlow Datasets的分叉，并在此基础上进行了优化和扩展。自推出以来，🤗Datasets已成为NLP研究社区中的重要工具，提供了对约100个NLP数据集和10个评估指标的访问。其设计理念强调易用性和高效性，支持与NumPy、Pandas、PyTorch和TensorFlow等主流框架的无缝集成，并通过内存映射技术有效处理大规模数据集。

当前挑战

🤗Datasets面临的挑战主要体现在两个方面。首先，随着NLP领域的快速发展，数据集的需求日益多样化，如何持续更新和扩展数据集库以满足不同研究需求是一个重要挑战。其次，数据集的构建和共享过程中，确保数据的质量、公平性和合法性是另一个关键问题。尽管🤗Datasets提供了便捷的访问方式，但用户仍需自行验证数据的使用权限和合规性。此外，如何在保持高效性的同时，进一步提升数据处理的灵活性和兼容性，也是该库未来发展的一个重要方向。

常用场景

经典使用场景

在自然语言处理（NLP）领域，🤗Datasets 数据集库被广泛应用于模型训练与评估。其内置的多种数据集和评估指标，如 SQuAD 和 GLUE，为研究人员提供了标准化的基准测试环境。通过其轻量级且高效的 API，用户可以轻松加载、处理和分析大规模数据集，极大简化了数据预处理和模型验证的流程。

衍生相关工作

🤗Datasets 的推出催生了一系列相关研究工作。例如，基于其提供的 SQuAD 数据集，研究人员开发了多种问答系统模型，显著提升了机器阅读理解能力。此外，其与 Hugging Face Transformers 库的结合，推动了预训练语言模型（如 BERT、GPT）的广泛应用，成为 NLP 领域的重要里程碑。

数据集最近研究