MattiaL/tapir-cleaned-67k

Name: MattiaL/tapir-cleaned-67k
Creator: MattiaL
Published: 2023-05-09 08:01:49
License: 暂无描述

Hugging Face2023-05-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/MattiaL/tapir-cleaned-67k

下载链接

链接失效反馈

官方服务：

资源简介：

Tapir-Cleaned是DAISLab数据集的修订版，经过彻底清理、评分和调整，用于指令微调。该数据集包含67,697个高质量的IFTTT规则，这些规则经过清理去除了冗余和不一致的规则。数据集还包括一个相关性评分，用于识别最适合指令微调的描述-规则对。该数据集特别适用于进行语言模型的指令微调，使其能够更准确地遵循指令并实现更优的性能。

提供机构：

MattiaL

原始信息汇总

Tapir-Cleaned 数据集概述

数据集描述

Tapir-Cleaned 是 DAISLab 数据集的一个修订版本，专门针对指令微调进行了彻底的清理、评分和调整。该数据集是从 IFTTT 平台提取的 242,480 个规则中筛选出的 67,697 个高质量规则组成。

数据集用途

Tapir-Cleaned 数据集主要用于训练预训练语言模型，使其能更准确地遵循指令并提升性能。数据集中的描述-规则对通过一个相关性分数进行评估，分数大于 0.75 的对被认为适合进一步分析和微调。

数据集结构

数据实例

每个数据实例包含以下字段：

instruction: 描述模型应执行的任务。
input: 任务的上下文或输入，每个输入都是唯一的。
output: 从原始 Tapir 数据集中获取的答案，格式化为 IFTTT 规则。
score: 通过 BertForNextSentencePrediction 获得的相关性分数。
text: 使用 Alpaca 作者的数据发布模板格式化的指令、输入和输出。

数据分割

训练集：67,697 条记录。

语言

数据集主要使用英语（BCP-47 en）。

许可证

数据集根据 Creative Commons NonCommercial (CC BY-NC 4.0) 许可证发布。

引用信息

@misc{tapir, author = {Mattia Limone, Gaetano Cimino, Annunziata Elefante}, title = {TAPIR: Trigger Action Platform for Information Retrieval}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/MattiaLimone/ifttt_recommendation_system}}, }

搜集汇总

数据集介绍

构建方式

在自动化服务领域，Tapir-Cleaned数据集源自DAISLab的IFTTT规则库，经过系统化清洗与优化。原始数据包含242,480条规则，通过剔除冗余与不一致的条目，筛选出67,697条高质量指令对。每条数据均采用BertForNextSentencePrediction模型计算相关性得分，仅保留得分高于0.75的描述-规则配对，确保数据在逻辑一致性与任务适配性上达到指令微调的标准。

特点

该数据集以英文指令对为核心，每条输入均具唯一性，涵盖丰富的自动化场景。其突出特点在于引入相关性评分机制，为语言模型训练提供可量化的质量参考；同时遵循Alpaca项目的提示模板，将指令、输入与输出整合为结构化文本，便于直接应用于微调流程。数据规模适中，兼具广度与深度，为指令遵循任务提供了高信噪比的训练资源。

使用方法

使用者可直接加载数据集的训练分割，利用text字段进行端到端的指令微调。每条样本包含明确的任务指令、上下文输入及标准输出，适用于训练语言模型理解并生成IF-THEN形式的自动化规则。相关性得分可作为样本权重或筛选依据，优化训练数据的选择。该数据集兼容主流文本生成框架，能够有效提升模型在开放式指令理解与规则生成任务中的表现。

背景与挑战

背景概述

在自然语言处理领域，指令微调技术正成为提升大型语言模型遵循人类指令能力的关键途径。由Mattia Limone等人于2023年创建的Tapir-Cleaned数据集，源自DAISLab从IFTTT平台提取的庞大配方库，经过精心清洗与优化，最终筛选出67,697条高质量英文指令数据。该数据集的核心研究目标在于为语言模型提供结构化的触发-动作规则对，以增强其在自动化任务场景下的指令理解与生成性能，对推动个性化信息检索与智能自动化系统的发展具有显著影响力。

当前挑战

该数据集致力于解决自动化规则生成领域的核心挑战，即如何从自然语言描述中精准解析并形式化为标准的“IF-THEN”逻辑结构，这对模型的语义理解与结构化输出能力提出了较高要求。在构建过程中，研究团队面临数据清洗的复杂性，需剔除原始IFTTT配方中的冗余与不一致条目，并通过基于BertForNextSentencePrediction的相关系数评分机制筛选高质数据对，确保指令与规则间的高度语义关联，这一过程涉及大规模噪声数据处理与质量评估体系的建立。

常用场景

经典使用场景

在自然语言处理领域，指令微调已成为提升语言模型遵循人类指令能力的关键技术。Tapir-Cleaned数据集作为经过精心清洗和评分的IFTTT规则集合，其经典使用场景在于为大型语言模型提供高质量的指令微调数据。通过将自然语言描述映射为结构化的“IF-THEN”规则，该数据集能够训练模型准确理解用户意图，并生成符合逻辑的自动化指令序列，从而在指令跟随任务中实现卓越的性能表现。

实际应用

在实际应用层面，Tapir-Cleaned数据集为智能家居、工作流自动化等场景提供了技术支撑。基于IFTTT平台的规则本质，训练后的模型能够将用户自然语言请求（如“下雨时开启暖色灯光”）自动转换为可执行的设备控制指令。这种能力使得语音助手、自动化脚本生成系统能够更精准地理解用户需求，降低自动化配置的技术门槛，促进人机交互向更智能、更便捷的方向演进。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在指令微调范式的优化与扩展。例如，研究团队借鉴Alpaca项目的提示模板，将数据格式化为标准化指令-输入-输出结构，为后续的指令跟随模型提供了可复用的训练框架。此外，基于评分机制的筛选方法也被应用于其他领域的数据清洗流程，启发了多模态指令数据集构建中质量评估指标的设计，推动了高质量指令数据开源生态的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集