acon96/Home-Assistant-Requests

Name: acon96/Home-Assistant-Requests
Creator: acon96
Published: 2024-02-23 02:01:50
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/acon96/Home-Assistant-Requests

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用户与个人助手交互的请求和响应列表，该助手控制着Home Assistant的实例。数据集从不同的CSV“堆”中生成，这些“堆”包含不同的请求块，这些块被组装成最终上下文呈现给LLM。例如，`piles/pile_of_device_names.csv`包含各种设备的名称，这些名称用作上下文的一部分，并插入到`piles/pile_of_templated_actions.csv`和`piles/pile_of_status_requests.csv`中。从这些“堆”中组装最终数据集的逻辑包含在[generate_home_assistant_data.py](./generate_home_assistant_data.py)中。

This dataset comprises a collection of requests and responses from user interactions with a personal assistant that controls a Home Assistant instance. The dataset is generated from distinct CSV piles, which hold various request chunks that are assembled into the final context fed to the LLM. For example, `piles/pile_of_device_names.csv` contains names of diverse devices, which are used as part of the context and inserted into `piles/pile_of_templated_actions.csv` and `piles/pile_of_status_requests.csv`. The logic for assembling the final dataset from these piles is included in [generate_home_assistant_data.py](./generate_home_assistant_data.py).

提供机构：

acon96

原始信息汇总

Home Assistant Requests Dataset

概述

该数据集包含用户与控制Home Assistant实例的个人助手交互的请求和响应列表。

数据集生成

数据集由不同的CSV“堆”生成。这些“堆”包含不同的请求块，这些请求块被组装成最终的上下文，呈现给LLM。例如，piles/pile_of_device_names.csv仅包含各种设备的名称，这些名称将作为上下文的一部分，并插入到piles/pile_of_templated_actions.csv和piles/pile_of_status_requests.csv中。从堆生成最终数据集的逻辑包含在generate_home_assistant_data.py中。

生成命令

bash python3 generate_home_assistant_data.py --train --test --large --sharegpt

支持的数据集分割有--test、--train和--sample。设置训练数据集大小的参数有--small、--medium、--large和--xl。支持的格式有--raw_corpus（chatml格式）和--sharegpt。

合并其他指令数据集

bash python3 generate_home_assistant_data.py --merge <dataset>

当前支持的数据集有：

alpaca
wizardlm70k

请注意，支持的数据集具有不同的许可证。请注意，生成的数据混合许可证可能与该数据集单独的许可证不同。

添加新角色

要添加新角色，需要定义一个新的系统提示和新的一组助手响应。系统提示是上下文开始时助手的描述。响应是执行任务时对用户的回复。无论助手的响应是什么，模型都应该以正确的服务调用进行响应。系统提示列表存储在pile_of_system_prompts.csv中，响应列表存储在pile_of_responses.csv中。

系统提示CSV

pile_of_system_prompts.csv包含以下两列：

persona：角色的名称
prompt：用于该角色的系统提示。建议将提示放在引号中，以防提示中也有逗号

响应CSV

pile_of_responses.csv包含以下列头：

service：我们正在响应的服务名称。确保涵盖足够多的不同服务，以便模型可以学习如何在所有情况下进行响应
response：响应的文本。建议将响应放在引号中，以防响应中也有逗号
language：响应的语言代码（目前仅支持en）
persona：响应所属角色的名称。在此处使用角色的名称
short：0或1。如果是1，则响应被视为“短”，可以与其他“短”响应一起使用“and”进行组合。这些用于存在多个服务调用的示例

使用Python脚本生成完整数据集时，会为任何缺失的响应打印警告。

搜集汇总

数据集介绍

构建方式

Home Assistant Requests数据集通过整合多个CSV文件构建而成，这些文件包含了用户与家庭自动化助手交互的请求和响应。数据集的核心逻辑在于将不同类别的请求（如设备名称、模板化动作、状态请求等）组合成最终的上下文，供大型语言模型使用。生成脚本`generate_home_assistant_data.py`负责将这些数据块组装成完整的训练和测试数据集，并支持多种数据集分割和格式配置。

特点

该数据集的特点在于其专注于家庭自动化场景，涵盖了丰富的设备名称、模板化动作和状态请求，能够为语言模型提供多样化的上下文训练数据。此外，数据集支持多种格式（如chatml和sharegpt）和规模（如small、medium、large等），并允许与其他指令数据集（如alpaca和wizardlm70k）合并，以增强模型的泛化能力。数据集还支持自定义助手个性和系统提示，进一步提升了其灵活性和实用性。

使用方法

使用该数据集时，用户可通过运行`generate_home_assistant_data.py`脚本生成训练和测试数据，并选择不同的数据集规模和格式。此外，用户还可以通过合并其他指令数据集来扩展训练数据，或通过定义新的系统提示和响应来添加自定义助手个性。生成过程中，脚本会检查响应完整性，确保数据质量。该数据集适用于问答和文本生成任务，尤其适合用于训练家庭自动化领域的语言模型。

背景与挑战

背景概述

Home Assistant Requests数据集由acon96于近期发布，旨在为家庭自动化领域的个人助手提供丰富的交互数据。该数据集通过模拟用户与Home Assistant系统的交互，生成了大量的请求与响应对，涵盖了设备控制、状态查询等多种场景。数据集的核心研究问题在于如何通过自然语言处理技术，提升智能助手在家庭环境中的理解与执行能力。该数据集的发布为家庭自动化领域的研究提供了宝贵的资源，推动了智能助手在真实场景中的应用。

当前挑战

Home Assistant Requests数据集在构建过程中面临多重挑战。首先，数据集的生成依赖于多个CSV文件的组合，如何确保不同文件之间的数据一致性与完整性是一个关键问题。其次，数据集需要覆盖广泛的设备类型与操作场景，这对数据的多样性与代表性提出了较高要求。此外，数据集在与其他指令数据集合并时，需考虑不同数据集的许可协议兼容性，这增加了数据整合的复杂性。最后，如何确保模型在不同人格设定下的响应一致性，也是数据集构建中的一大挑战。

常用场景

经典使用场景

Home-Assistant-Requests数据集主要用于训练和评估智能家居助手系统中的自然语言处理模型。该数据集通过模拟用户与家庭自动化系统的交互，提供了丰富的请求和响应数据，使得研究人员能够构建和优化能够理解和执行复杂家庭自动化任务的对话系统。

实际应用

在实际应用中，Home-Assistant-Requests数据集被广泛用于开发智能家居助手，如Amazon Alexa和Google Home。这些助手利用数据集中的对话模式来优化其响应策略，提高用户交互的自然度和效率，从而提升用户体验和满意度。

衍生相关工作

基于Home-Assistant-Requests数据集，研究者们已经开发了多种先进的对话系统和自然语言处理模型。例如，结合该数据集训练的模型已被用于改进智能家居助手的多轮对话能力，以及增强其对复杂指令的理解和执行能力。此外，该数据集也促进了与其他指令数据集的融合，如Alpaca和WizardLM70K，进一步扩展了其应用范围和研究价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集