infinity-instruct-7m-T2T_en

Hugging Face2024-09-03 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/pszemraj/infinity-instruct-7m-T2T_en

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，如'all', 'deduped-L1', 'deduped-L2', 'default', 和 'en-deduped'。每个配置具有特定的特征，如'id', 'source', 'instruction', 和 'response'，并包含一个'train'分割，详细说明了示例数量和字节数。数据集经过多种过滤器处理以确保质量，例如对话长度、语言检测、指令-响应提取、拒绝响应、语言复查和字数过滤器。此外，还提到了一个'en-deduped'配置，该配置通过在'response'上使用阈值为0.6的minhash进行了去重处理。

创建时间：

2024-08-30

原始信息汇总

infinity-instruct 7m: text to text & english

数据集概述

语言和许可

语言：英语
许可：odc-by

数据集大小

大小范围：1M < n < 10M

数据集配置

配置：all

特征：
- id: int64
- source: string
- instruction: string
- response: string
分割：
- train:
  - 字节数：6535504042.293433
  - 示例数：5088189
下载大小：3698456025
数据集大小：6535504042.293433

配置：deduped-L1

特征：
- id: int64
- source: string
- instruction: string
- response: string
分割：
- train:
  - 字节数：2830462741.1176167
  - 示例数：1768972
下载大小：1617594800
数据集大小：2830462741.1176167

配置：deduped-L2

特征：
- id: int64
- source: string
- instruction: string
- response: string
分割：
- train:
  - 字节数：1788639157.8823833
  - 示例数：1117857
下载大小：954292977
数据集大小：1788639157.8823833

配置：default

特征：
- id: int64
- source: string
- instruction: string
- response: string
分割：
- train:
  - 字节数：6045124855.509772
  - 示例数：4506651
下载大小：3384546897
数据集大小：6045124855.509772

配置：en-deduped

特征：
- id: int64
- source: string
- instruction: string
- response: string
分割：
- train:
  - 字节数：4619101899.0
  - 示例数：2886829
下载大小：2581331059
数据集大小：4619101899.0

数据文件配置

配置：all
- 分割：train
- 路径：all/train-*
配置：deduped-L1
- 分割：train
- 路径：deduped-L1/train-*
配置：deduped-L2
- 分割：train
- 路径：deduped-L2/train-*
配置：default
- 分割：train
- 路径：data/train-*
配置：en-deduped
- 分割：train
- 路径：en-deduped/train-*

数据处理步骤

对话长度过滤：过滤掉超过5个交流的对话
语言检测过滤：使用默认的language列移除非英语对话
指令-响应提取：从每个对话中提取第一个人类指令和相应的LLM响应
拒绝响应过滤：移除包含拒绝词（如“sorry”或“I cant”）的响应行（仅在第一句中）
语言复查：使用fasttext-langdetect进行另一次英语语言检查
词数过滤：移除少于3个词的响应（默认配置）

此外，还有一个en-deduped配置，使用minhash在response上进行去重，阈值为0.6

来源统计

响应中包含3个或更多词的来源统计（默认配置）

[(OpenHermes-2.5, 809467), (flan, 740331), (MetaMath, 686537), (code_exercises, 553399), (Orca-math-word-problems-200k, 397577), (code_bagel, 360434), (MathInstruct, 327734), (Subjective, 265090), (python-code-dataset-500k, 78278), (CodeFeedback, 75244), (instructional_code-search-net-python, 74101), (self-oss-instruct-sc2-exec-filter-50k, 48428), (Evol-Instruct-Code-80K, 31763), (CodeExercise-Python-27k, 27088), (code_instructions_122k_alpaca_style, 13333), (Code-Instruct-700k, 10859), (Glaive-code-assistant-v3, 8935), (Python-Code-23k-ShareGPT, 2272), (python_code_instructions_18k_alpaca, 1848)]

所有来源统计

[(flan, 1307829), (OpenHermes-2.5, 820335), (MetaMath, 686537), (code_exercises, 553445), (Orca-math-word-problems-200k, 397579), (code_bagel, 360467), (MathInstruct, 327745), (Subjective, 267898), (python-code-dataset-500k, 78294), (CodeFeedback, 75273), (instructional_code-search-net-python, 74104), (self-oss-instruct-sc2-exec-filter-50k, 48428), (Evol-Instruct-Code-80K, 31932), (CodeExercise-Python-27k, 27088), (code_instructions_122k_alpaca_style, 13390), (Code-Instruct-700k, 10859), (Glaive-code-assistant-v3, 8935), (Python-Code-23k-ShareGPT, 2272), (python_code_instructions_18k_alpaca, 1850)]

搜集汇总

数据集介绍

构建方式

infinity-instruct-7m-T2T_en数据集的构建基于对原始数据集的多次过滤与处理。首先，通过对话长度过滤器剔除了超过5轮交换的对话，确保数据简洁性。其次，利用语言检测过滤器移除非英语对话，并通过指令-响应提取方法，从每个对话中提取出首次人类指令及对应的LLM响应。此外，拒绝响应过滤器移除了包含拒绝术语的响应，并通过fasttext-langdetect进行二次语言检测，确保数据纯英语化。最后，通过词数过滤器移除少于3个词的响应，确保数据质量。

特点

该数据集的特点在于其高度的语言纯净性和内容质量。通过严格的过滤机制，确保了所有对话均为英语，并且每个响应均符合一定的长度和质量标准。数据集还提供了去重版本，使用minhash方法对响应进行去重，相似度阈值为0.6，进一步提升了数据的独特性和实用性。此外，数据集涵盖了多种来源，如OpenHermes-2.5、flan等，提供了丰富的指令-响应对，适用于多种自然语言处理任务。

使用方法

infinity-instruct-7m-T2T_en数据集适用于训练和评估自然语言处理模型，特别是在指令理解和响应生成任务中。用户可以通过Hugging Face平台下载数据集，并根据需要选择不同的配置版本，如默认配置或去重配置。数据集的结构化格式便于直接用于模型训练，每个样本包含唯一的ID、来源、指令和响应，便于模型学习指令与响应之间的映射关系。此外，数据集的多样性来源为模型提供了广泛的学习材料，有助于提升模型的泛化能力。

背景与挑战

背景概述

infinity-instruct-7m-T2T_en数据集是一个专注于文本到文本转换任务的大规模英语指令数据集，旨在为自然语言处理领域的研究提供丰富的训练资源。该数据集基于BAAI的Infinity-Instruct原始数据集，经过多步过滤和处理，确保数据的高质量和一致性。数据集的主要研究人员和机构未明确提及，但其构建过程体现了对数据多样性和实用性的高度关注。该数据集的核心研究问题在于如何通过高质量的指令-响应对来提升语言模型的生成能力和理解能力，特别是在多轮对话和复杂任务中的应用。其对自然语言处理领域的影响力主要体现在为模型训练提供了大量结构化的指令数据，推动了对话系统和指令理解技术的发展。

当前挑战

infinity-instruct-7m-T2T_en数据集在构建和应用过程中面临多重挑战。首先，数据清洗和过滤的复杂性是一个显著问题，包括去除非英语对话、过滤过长对话以及剔除包含拒绝性响应的样本，这些步骤需要高效的算法和大量的计算资源。其次，数据去重是另一个关键挑战，特别是在使用minhash算法进行去重时，如何平衡去重效果与数据多样性是一个难题。此外，数据来源的多样性和质量差异也对数据集的构建提出了挑战，例如不同来源的指令格式和内容可能存在不一致性，需要额外的标准化处理。最后，如何确保数据集的实用性和泛化能力，使其能够广泛应用于不同的自然语言处理任务，也是该数据集面临的核心挑战之一。

常用场景

经典使用场景

infinity-instruct-7m-T2T_en数据集广泛应用于自然语言处理领域，特别是在文本生成和指令跟随任务中。该数据集通过过滤和提取对话中的指令与响应，为研究人员提供了一个高质量的文本对集合，适用于训练和评估生成式语言模型。其经典使用场景包括对话系统开发、指令理解与执行、以及文本生成任务的研究。

衍生相关工作

基于infinity-instruct-7m-T2T_en数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集训练了多个先进的生成式语言模型，如GPT系列和T5模型。这些模型在文本生成、对话系统和指令理解任务中表现出色。此外，该数据集还催生了一系列关于指令优化和模型微调的研究，进一步推动了自然语言处理领域的发展。

数据集最近研究