ml-datasets

github2024-02-05 更新2024-05-31 收录

下载链接：

https://github.com/explosion/ml-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

用于测试和示例脚本的机器学习数据集加载器。

A machine learning dataset loader for testing and example scripts.

创建时间：

2019-12-29

原始信息汇总

数据集概述

可用加载器

NLP数据集

ID / 函数	描述	NLP任务	来自URL
`imdb`	IMDB情感数据集	二分类：情感分析	✓
`dbpedia`	DBPedia本体数据集	多类单标签分类	✓
`cmu`	CMU电影类型数据集	多类多标签分类	✓
`quora_questions`	重复的Quora问题数据集	检测重复问题	✓
`reuters`	路透社数据集（文本未包含）	多类多标签分类	✓
`snli`	斯坦福自然语言推理语料库	识别文本蕴含	✓
`stack_exchange`	堆栈交换数据集	问答
`ud_ancora_pos_tags`	通用依赖西班牙语AnCora语料库	POS标记	✓
`ud_ewtb_pos_tags`	通用依赖英语EWT语料库	POS标记	✓
`wikiner`	WikiNER数据	命名实体识别

其他ML数据集

ID / 函数	描述	ML任务	来自URL
`mnist`	MNIST数据	图像识别	✓

数据集详细信息

IMDB

描述: 每个实例包含电影评论文本和情感表达（0或1）。
下载URL: http://ai.stanford.edu/~amaas/data/sentiment/
引用: Andrew L. Maas et al., 2011
属性:
- 训练/开发实例数: 25000
- 标签值: {0, 1}
- 每实例标签数: 单个
- 标签分布: 平衡（50/50）

DBPedia

描述: 每个实例包含本体描述，分类为14个不同标签之一。
下载URL: Via fast.ai
原始引用: Xiang Zhang et al., 2015
属性:
- 训练/开发实例数: 560000/70000
- 标签值: 1-14
- 每实例标签数: 单个
- 标签分布: 平衡

CMU

描述: 每个实例包含电影描述和分类为适当的类型列表。
下载URL: http://www.cs.cmu.edu/~ark/personas/
原始引用: David Bamman et al., 2013
属性:
- 训练实例数: 41793
- 标签值: 363种不同类型
- 每实例标签数: 多个
- 标签分布: 不平衡

Quora

描述: 每个实例包含两个Quora问题和标签指示它们是否重复（0: 否, 1: 是）。
下载URL: http://qim.fs.quoracdn.net/quora_duplicate_questions.tsv
原始引用: Kornél Csernai et al., 2017
属性:
- 训练/开发实例数: 363859/40429
- 标签值: {0, 1}
- 每实例标签数: 单个
- 标签分布: 不平衡

加载器注册

加载器可以通过loaders注册表外部注册，使用装饰器。例如：

python @ml_datasets.loaders("my_custom_loader") def my_custom_loader(): return load_some_data()

assert "my_custom_loader" in ml_datasets.loaders

搜集汇总

数据集介绍

构建方式

ml-datasets数据集的构建方式主要依赖于从公开的机器学习数据源中提取和整理数据。该数据集通过Python包的形式提供，用户可以通过pip安装，并直接导入所需的数据加载器。每个加载器对应一个特定的数据集，如IMDB、DBPedia等，这些数据集通常来自学术研究或公开的在线资源。数据加载器不仅支持直接导入，还可以通过字符串名称进行调用，便于在命令行参数中灵活配置。

使用方法

使用ml-datasets数据集的方法非常简便。用户首先通过pip安装ml-datasets包，然后在Python脚本中导入所需的数据加载器。加载器可以直接调用，也可以通过字符串名称从注册表中获取。每个加载器返回训练数据和开发数据，用户可以根据需要进行进一步的处理或分析。此外，用户还可以自定义数据加载器，并通过注册表进行注册，扩展数据集的功能。

背景与挑战

背景概述

ml-datasets是由Explosion.ai开发的一个机器学习数据集加载工具包，旨在为测试和示例脚本提供便捷的数据集访问。该工具包最初作为`thinc.extra.datasets`的一部分，后独立发布。其核心研究问题在于简化机器学习数据集的加载过程，支持多种自然语言处理（NLP）和图像识别任务。通过提供标准化的数据加载接口，ml-datasets显著降低了研究人员和开发者在数据预处理阶段的复杂性，推动了机器学习模型的快速迭代与实验。该工具包的影响力主要体现在其广泛的数据集覆盖范围，包括IMDB情感分析、DBPedia本体分类、CMU电影类型标注等经典数据集，为NLP和计算机视觉领域的研究提供了重要支持。

当前挑战

ml-datasets在解决领域问题和构建过程中面临多重挑战。在领域问题方面，其核心挑战在于如何高效处理多样化的数据集格式和任务需求。例如，IMDB数据集需要处理文本情感分类，而CMU数据集则涉及多标签分类任务，这要求工具包具备高度的灵活性和扩展性。此外，数据集的标签分布不平衡（如Quora问题对数据集）进一步增加了模型训练的难度。在构建过程中，挑战主要集中于数据集的标准化与集成。不同数据集的来源、格式和预处理需求各异，开发者需要确保数据加载接口的统一性和易用性，同时兼顾性能优化。此外，部分数据集（如Quora问题对）存在标签噪声问题，这对数据质量的控制提出了更高要求。

常用场景

经典使用场景

在自然语言处理（NLP）领域，ml-datasets数据集被广泛应用于情感分析、文本分类、命名实体识别等任务。例如，IMDB数据集常用于训练和评估情感分析模型，DBPedia数据集则用于多类单标签分类任务。这些数据集为研究者提供了标准化的测试环境，便于模型性能的对比与优化。

解决学术问题

ml-datasets数据集解决了机器学习领域中数据标准化和可重复性的问题。通过提供统一的加载接口和标准化的数据格式，研究者可以更便捷地进行模型训练和评估。此外，这些数据集还帮助解决了特定任务如情感分析、文本分类中的标注数据稀缺问题，推动了相关领域的研究进展。

实际应用

在实际应用中，ml-datasets数据集被广泛应用于商业智能、社交媒体分析、推荐系统等领域。例如，IMDB数据集可用于电影评论的情感分析，帮助企业了解用户对产品的反馈；Quora问题对数据集则可用于构建智能问答系统，提升用户体验。这些应用场景展示了数据集在现实世界中的广泛价值。

数据集最近研究