fineweb-edu-sample-10BT-chunked-500-nomic-text-v1.5

Hugging Face2024-06-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/enjalot/fineweb-edu-sample-10BT-chunked-500-nomic-text-v1.5

下载链接

链接失效反馈

官方服务：

资源简介：

FineWeb-edu 10BT Sample数据集是通过将文本分割成500个token的块，每个块之间有10%的重叠，然后使用nomic-text-v1.5进行嵌入处理。这个数据集主要用于聚类和特征提取，旨在为SAE创建训练数据以识别nomic-text-v1.5中的特征。数据集包含多个列，如文档ID、URL、分数、文本块、token数量和嵌入向量等。数据集的创建考虑了成本和规模，使用modal.com的CPU和GPU进行处理，总成本约为$60。

创建时间：

2024-06-26

原始信息汇总

FineWeb-edu 10BT Sample embedded with nomic-text-v1.5

数据集描述

数据集特征

chunk_index: 整数类型，表示文档块的索引。
chunk_text: 字符串类型，表示文档块的文本内容。
chunk_tokens: 整数序列类型，表示由bert-base-uncased分词后的令牌。
chunk_token_count: 整数类型，表示该块中的令牌数量。
id: 字符串类型，表示fineweb-edu中的文档ID。
url: 字符串类型，表示fineweb-edu中文档的URL。
score: 浮点数类型，表示fineweb-edu中的评分。
dump: 字符串类型，表示fineweb-edu中的转储内容。
embedding: 浮点数序列类型，表示nomic-text-v1.5嵌入的768维向量。
index_level_0: 整数类型，表示索引级别。

数据集分割

train: 包含25,504,378个样本，总字节数为296,035,820,712。

数据集大小

下载大小: 215,649,217,827字节
数据集大小: 296,035,820,712字节

配置

config_name: default
data_files:
- split: train
- path: data/train-*

许可证

Apache license 2.0

数据集名称

FineWeb-edu 10BT Sample embedded with nomic-text-v1.5

数据集大小分类

10M<n<100M

数据集详情

数据集描述

创建者: Ian @enjalot Johnson
资助者: Latent Interfaces
许可证: Apache license 2.0

数据集来源

仓库: https://github.com/enjalot/fineweb-modal

数据集用途

直接用途

该数据集主要用于聚类和特征提取，因为数据集嵌入了clustering:前缀。
创建数据集的动机是为了为SAE识别特征生成训练数据。

数据集结构

id: fineweb-edu中的文档ID
url: fineweb-edu中文档的URL
score: fineweb-edu中的评分
dump: fineweb-edu中的转储内容
chunk_index: 原始文档的哪个块
chunk_text: 块的文本内容
chunk_tokens: bert-base-uncased分词后的令牌
chunk_token_count: 该块中的令牌数量
embedding: nomic-text-v1.5嵌入的768维向量

数据集创建

创建理由

10BT样本足够大，可以进行大规模处理，但仍然可以在小预算内管理。使用modal.com的按需CPU和GPU，总成本约为$60。

搜集汇总

数据集介绍

构建方式

FineWeb-edu 10BT样本数据集通过将原始文本数据分块处理构建而成，每块包含500个token，并使用bert-base-uncased进行分词，块与块之间保留10%的重叠。该数据集共包含2550万行数据，总计10.5BT的文本量。随后，这些文本块通过nomic-text-v1.5模型进行嵌入处理，生成了768维的向量表示。整个构建过程利用了modal.com提供的按需CPU和GPU资源，总成本约为60美元。

特点

该数据集的特点在于其丰富的特征表示，包括每个文本块的索引、原始文本、分词结果、token数量、文档ID、URL、评分、数据来源、以及768维的嵌入向量。这些特征不仅提供了文本的原始信息，还通过嵌入向量捕捉了文本的语义信息，适用于聚类和特征提取等任务。数据集规模适中，既保证了数据的多样性，又便于在有限的计算资源下进行处理。

使用方法

该数据集的主要用途是用于聚类和特征提取任务，特别是为稀疏自编码器（SAE）提供训练数据，以识别nomic-text-v1.5模型中的特征。用户可以通过加载数据集中的嵌入向量，结合文本块的其他特征，进行语义分析、文本分类或信息检索等任务。数据集的结构清晰，支持直接加载和处理，适用于大规模文本分析场景。

背景与挑战

背景概述

FineWeb-edu-sample-10BT-chunked-500-nomic-text-v1.5数据集是由Ian Johnson在Latent Interfaces的资助下创建的，旨在为自然语言处理领域提供高质量的文本嵌入数据。该数据集基于FineWeb-edu的10BT样本，通过bert-base-uncased模型将其分割为500个token的块，并采用nomic-text-v1.5模型进行嵌入处理。数据集的主要用途是聚类和特征提取，特别是为稀疏自编码器（SAE）的训练提供数据支持，以识别nomic-text-v1.5中的特征。该数据集在2024年发布，采用Apache 2.0许可证，为研究社区提供了一个可扩展且经济高效的文本嵌入资源。

当前挑战

FineWeb-edu-sample-10BT-chunked-500-nomic-text-v1.5数据集在构建过程中面临多重挑战。首先，文本分割和嵌入处理需要高效的算法和计算资源，以确保数据质量和处理效率。其次，由于数据集规模庞大（包含2550万行数据），如何在有限的预算内完成数据处理是一个关键问题。通过利用modal.com的按需CPU和GPU资源，团队成功将总成本控制在约60美元，但仍需优化资源分配和计算流程。此外，数据集的嵌入质量直接影响后续聚类和特征提取的效果，如何确保嵌入向量的准确性和一致性是另一个重要挑战。这些挑战不仅涉及技术实现，还涉及资源管理和数据处理流程的优化。

常用场景

经典使用场景

FineWeb-edu 10BT样本数据集在自然语言处理领域中被广泛应用于文本聚类和特征提取任务。通过将文本分块并嵌入到高维向量空间中，该数据集为研究人员提供了一个丰富的资源，用于探索大规模文本数据的结构和语义特征。特别是在BERT模型的基础上进行分块处理，使得文本的语义信息得以保留，从而为后续的聚类分析提供了坚实的基础。

衍生相关工作

基于FineWeb-edu 10BT样本数据集，研究人员已经开展了一系列相关研究，特别是在稀疏自编码器（SAE）和文本聚类算法方面。这些研究不仅推动了文本特征提取技术的发展，还为大规模文本数据的语义分析提供了新的工具和方法。此外，该数据集还激发了关于如何在大规模文本数据中识别和解释潜在特征的研究，进一步推动了自然语言处理领域的进步。

数据集最近研究