🤗Datasets

github2022-05-03 更新2024-05-31 收录

下载链接：

https://github.com/stas00/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

🤗Datasets是一个轻量级库，提供一键加载多种公共数据集和高效数据预处理功能，支持多种语言和数据格式，适用于多种机器学习框架。

🤗Datasets is a lightweight library that offers one-click loading of various public datasets and efficient data preprocessing capabilities. It supports multiple languages and data formats, making it suitable for a wide range of machine learning frameworks.

创建时间：

2020-09-12

原始信息汇总

数据集概述

🤗Datasets 是一个轻量级库，提供以下两个主要功能：

一键式数据加载器：支持多个公共数据集，可通过简单命令如 squad_dataset = load_dataset("squad") 下载和预处理数据，适用于训练/评估机器学习模型（支持 Numpy、Pandas、PyTorch、TensorFlow、JAX）。
高效数据预处理：支持简单、快速且可重复的数据预处理，适用于公共数据集及本地数据集（CSV/JSON/文本格式）。例如，使用 tokenized_dataset = dataset.map(tokenize_exemple) 命令进行数据准备。

数据集特点

支持大规模数据集：通过使用 Apache Arrow 作为零序列化成本的后端，自然地释放用户对 RAM 内存的限制。
智能缓存：避免重复处理数据，提高效率。
轻量级且快速：具有透明和 Pythonic 的 API，支持多进程、缓存和内存映射。
内置互操作性：与 NumPy、pandas、PyTorch、TensorFlow 2 和 JAX 兼容。

使用方法

列出可用数据集：使用 datasets.list_datasets()。
加载数据集：使用 datasets.load_dataset(dataset_name, **kwargs)。
列出可用评估指标：使用 datasets.list_metrics()。
加载评估指标：使用 datasets.load_metric(metric_name, **kwargs)。

添加新数据集

提供详细的步骤指南，帮助用户将新数据集添加到 HuggingFace Datasets Hub。
支持用户在 Hub 上创建自己的数据集仓库，并与社区共享。

数据集与 `tfds` 的主要区别

🤗Datasets 的脚本不包含在库中，而是在请求时查询、下载/缓存并动态加载。
🤗Datasets 还提供评估指标，作为动态安装的脚本，具有统一的 API。
后端序列化基于 Apache Arrow，而非 TF Records，并利用 Python 数据类存储原始数据。
用户面对的数据集对象不是 tf.data.Dataset，而是一个框架无关的数据集类，具有受 tf.data 启发的 map() 等方法。

搜集汇总

数据集介绍

构建方式

🤗Datasets 是一个轻量级的库，旨在简化公共数据集的加载与预处理过程。该库通过动态加载脚本的方式，从 HuggingFace Datasets Hub 中查询、下载并缓存数据集。其核心构建方式基于 Apache Arrow 后端序列化技术，确保数据的高效存储与访问。用户可以通过简单的命令如 `load_dataset` 快速获取数据集，并利用内置的预处理功能进行数据清洗与转换。

使用方法

使用 🤗Datasets 非常简单，用户可通过 `list_datasets` 查看可用数据集，并通过 `load_dataset` 加载特定数据集。数据预处理可通过 `map` 方法实现，支持自定义函数进行批量处理。此外，用户还可以加载评估指标，如 `load_metric`，用于模型性能评估。该库提供了详细的文档和 Colab 教程，帮助用户快速上手并应用于实际项目中。

背景与挑战

背景概述

🤗Datasets 是由 HuggingFace 团队开发的一个轻量级数据集库，旨在为机器学习研究提供便捷的数据加载和预处理工具。该库起源于 TensorFlow Datasets 的一个分支，并于 2021 年正式发布。其主要功能包括一键加载多种公开数据集以及高效的数据预处理能力，支持 467 种语言和方言的数据集。🤗Datasets 的设计目标是简化数据处理的复杂性，使其能够与多种机器学习框架（如 PyTorch、TensorFlow、JAX 等）无缝集成。该库的推出极大地推动了自然语言处理、计算机视觉等领域的研究进展，成为学术界和工业界广泛使用的工具之一。

当前挑战

🤗Datasets 在解决数据集加载和预处理的通用性问题时面临多重挑战。首先，数据集的多样性和复杂性要求库具备高度的灵活性和扩展性，以支持不同格式和结构的数据。其次，数据预处理的效率问题尤为突出，尤其是在处理大规模数据集时，如何在不占用过多内存的情况下实现快速处理是一个关键挑战。此外，数据集的质量和公平性也是需要关注的问题，尽管 🤗Datasets 不直接托管数据集，但其用户仍需自行验证数据集的合法性和适用性。最后，如何保持与多种机器学习框架的兼容性，同时提供统一的 API 接口，也是该库在设计和实现过程中需要克服的技术难题。

常用场景

经典使用场景

在自然语言处理（NLP）领域，`🤗Datasets` 数据集库被广泛应用于模型训练与评估。通过其简洁的API，研究人员可以轻松加载并预处理包括SQuAD、GLUE等在内的多种公开数据集，极大简化了数据准备过程。其内存映射技术使得处理大规模数据集时无需担心内存限制，特别适合深度学习模型的训练场景。

解决学术问题

`🤗Datasets` 解决了NLP研究中数据获取与预处理的效率问题。传统方法中，研究人员需要花费大量时间下载、清洗和格式化数据，而该库通过提供统一的接口和高效的预处理工具，显著降低了数据准备的时间成本。此外，其支持多种语言和方言的数据集，为跨语言研究提供了便利，推动了多语言NLP模型的发展。

实际应用

在实际应用中，`🤗Datasets` 被广泛用于构建和优化智能问答系统、文本分类模型以及机器翻译系统。例如，企业可以利用该库快速加载SQuAD数据集，训练问答模型以提升客户服务效率。其与PyTorch、TensorFlow等框架的无缝集成，使得开发者能够快速将研究成果转化为实际应用。

数据集最近研究

🤗Datasets

数据集概述

数据集特点

使用方法

添加新数据集

数据集与 tfds 的主要区别

数据集与 `tfds` 的主要区别