🤗Datasets

github2020-12-05 更新2024-05-31 收录

下载链接：

https://github.com/rahul-art/datasets

下载链接

链接失效反馈

官方服务：

资源简介：

🤗Datasets是一个轻量级且可扩展的库，用于轻松共享和访问自然语言处理（NLP）及其他领域的数据集和评估指标。它具有与NumPy、pandas、PyTorch和Tensorflow 2的内置互操作性，轻量级且快速，具有透明和Pythonic的API，并能处理大型数据集，通过默认的内存映射驱动器来克服RAM内存限制。此外，它还具有智能缓存功能，确保数据处理的高效性。

🤗Datasets is a lightweight and extensible library designed for the effortless sharing and accessing of datasets and evaluation metrics in natural language processing (NLP) and other fields. It features built-in interoperability with NumPy, pandas, PyTorch, and TensorFlow 2, is lightweight and fast, offers a transparent and Pythonic API, and can handle large datasets by overcoming RAM limitations through default memory-mapped drivers. Additionally, it includes intelligent caching capabilities to ensure efficient data processing.

创建时间：

2020-12-02

原始信息汇总

数据集概述

数据集名称

🤗Datasets

数据集描述

🤗Datasets 是一个轻量级且可扩展的库，用于轻松共享和访问自然语言处理（NLP）及其他领域的数据集和评估指标。

主要特点

兼容性：与NumPy、Pandas、PyTorch和TensorFlow 2兼容。
性能：轻量级且快速，API透明且Pythonic。
处理大数据：自然地释放用户从RAM内存限制，所有数据集默认在驱动器上内存映射。
智能缓存：数据处理多次时无需等待。

数据集内容

提供约100个NLP数据集和约10个评估指标。
社区可轻松添加和共享新的数据集和评估指标。

使用方法

datasets.list_datasets()：列出可用数据集。
datasets.load_dataset(dataset_name, **kwargs)：实例化数据集。
datasets.list_metrics()：列出可用评估指标。
datasets.load_metric(metric_name, **kwargs)：实例化评估指标。

示例代码

python from datasets import list_datasets, load_dataset, list_metrics, load_metric

列出所有可用数据集

print(list_datasets())

加载数据集并打印训练集的第一个示例

squad_dataset = load_dataset(squad) print(squad_dataset[train][0])

列出所有可用评估指标

print(list_metrics())

加载评估指标

squad_metric = load_metric(squad)

数据集浏览

可通过实时数据集查看器浏览完整的数据集集合。

搜集汇总

数据集介绍

构建方式

🤗Datasets的构建源于对TensorFlow Datasets的分叉，旨在为自然语言处理（NLP）及其他领域提供轻量级且可扩展的数据集和评估指标库。该库通过动态加载脚本的方式，实现了数据集的查询、下载与缓存，确保了数据的高效访问与使用。其核心设计理念在于简化数据集的共享与访问流程，同时支持与NumPy、Pandas、PyTorch和TensorFlow等主流框架的无缝集成。

特点

🤗Datasets具备多项显著特点，包括内置与NumPy、Pandas、PyTorch和TensorFlow的互操作性，轻量级且快速的透明Python API，以及针对大规模数据集的优化处理。通过内存映射技术，该库有效解决了RAM内存限制问题，确保用户在处理海量数据时无需担忧内存瓶颈。此外，智能缓存机制避免了重复数据处理，显著提升了数据加载效率。

使用方法

使用🤗Datasets极为简便，用户可通过`datasets.list_datasets()`查看可用数据集，并通过`datasets.load_dataset(dataset_name, **kwargs)`加载特定数据集。评估指标的获取同样便捷，`datasets.list_metrics()`列出可用指标，`datasets.load_metric(metric_name, **kwargs)`则用于加载具体指标。该库还提供了丰富的文档和Colab教程，帮助用户快速上手并深入探索数据集的使用与处理。

背景与挑战

背景概述

🤗Datasets是由HuggingFace团队开发的一个轻量级且可扩展的库，旨在为自然语言处理（NLP）及其他领域提供便捷的数据集和评估指标的共享与访问。该库起源于对TensorFlow Datasets的分叉，并在其基础上进行了优化和扩展。自推出以来，🤗Datasets已成为NLP领域的重要工具，提供了与NumPy、Pandas、PyTorch和TensorFlow等主流框架的无缝集成。其核心研究问题在于如何高效地管理和处理大规模数据集，同时保持内存的高效利用。通过内存映射和智能缓存技术，🤗Datasets显著降低了数据处理过程中的内存占用，极大地提升了数据加载和处理的效率。

当前挑战

🤗Datasets在解决NLP领域的数据集管理和评估问题时，面临多重挑战。首先，随着数据集的多样性和规模不断增加，如何确保数据的高效加载和处理成为一个关键问题。尽管内存映射技术缓解了内存限制，但在处理超大规模数据集时，仍需进一步优化。其次，数据集的动态加载和缓存机制虽然提升了灵活性，但也带来了潜在的兼容性和性能问题。此外，如何确保数据集的公平性和质量，尤其是在涉及敏感数据时，仍是一个亟待解决的伦理挑战。最后，尽管🤗Datasets支持多种框架，但在不同框架间的无缝切换和性能优化仍需进一步探索。

常用场景

经典使用场景

在自然语言处理（NLP）领域，🤗Datasets 数据集库为研究人员和开发者提供了一个高效且灵活的工具，用于加载和处理各种文本数据集。其经典使用场景包括文本分类、机器翻译、问答系统等任务。通过内置的与NumPy、Pandas、PyTorch和TensorFlow的互操作性，用户可以轻松地将数据集集成到现有的机器学习工作流中，从而加速模型的训练和评估过程。

衍生相关工作

🤗Datasets 的推出催生了一系列相关的研究工作。例如，基于该库的GLUE基准测试已成为评估NLP模型性能的重要标准。此外，许多开源项目和研究论文也依赖于该库提供的数据集和评估指标，进一步推动了NLP领域的技术进步。其与TensorFlow Datasets的差异化和创新性设计，也为后续的数据集管理工具提供了新的思路。

数据集最近研究