mind_call

Hugging Face2025-12-30 更新2025-12-31 收录

下载链接：

https://huggingface.co/datasets/frshafi/mind_call

下载链接

链接失效反馈

官方服务：

资源简介：

MindCall是一个合成的功能调用数据集，旨在训练和评估语言模型在将自然语言健康相关查询映射到可穿戴传感器数据的结构化API调用上的能力。该数据集专注于心理健康相关的用例，如睡眠、压力、身体活动和生理监测。数据集完全合成，不包含真实用户数据或敏感个人信息。它包含多种查询类型（显式、隐式、行为、症状和隐喻）和功能（步数、心率、睡眠、压力水平等），并可选包含自然语言推理步骤。数据集适合用于微调LLMs进行功能调用、研究心理健康对话代理、实验推理感知API选择等。

创建时间：

2025-12-17

原始信息汇总

MindCall 数据集概述

数据集基本信息

数据集名称：MindCall
发布者：Fozle Rabbi Shafi, M. Anwar Hossain, Salimur Choudhury
发布日期：2025年
许可证：apache-2.0
语言：英语 (en)
任务类别：文本生成 (text-generation)
标签：心理健康 (mental-health)、健康 (well-being)、函数调用 (function-calling)、问答 (Q&A)
数据规模分类：1K<n<10K

数据集内容与结构

数据描述：这是一个合成的函数调用数据集，旨在训练和评估语言模型将自然语言健康相关查询映射到可穿戴传感器数据的结构化API调用。该数据集专注于心理健康导向的用例，如睡眠、压力、身体活动和生理监测。数据集完全合成，不包含任何真实用户数据或敏感个人信息。
特征字段：
- patient_query：自然语言用户请求。
- type：查询类型。
- thinking：可选的、解释意图和推理步骤的自然语言推理字段。
- num_days：用于数据检索的规范化天数。
- function：要调用的目标函数。
- patient_id：患者标识符。
- assistant_response：助手回复。
- text：文本内容。
数据划分：
- 训练集：3,824 个样本。
- 测试集：765 个样本。
- 验证集：510 个样本。
数据总量：5,099 个样本。
文件大小：
- 下载大小：2,151,884 字节。
- 数据集大小：6,996,569 字节。

核心设计特点

模式与设计：遵循受三星健康连接启发的标准化健康数据模式，确保功能定义既真实又可互操作。每个样本包含用户查询、查询类型、推理、时间范围和目标函数。设计具有模块化特点，易于适配其他平台或健康领域。
支持的函数：涵盖常见的可穿戴数据类型，包括步数与身体活动、心率与运动指标、睡眠时段、压力水平、营养与身体成分、血糖、血氧饱和度和血压。额外包含体温函数以演示如何添加新的传感器模式。
查询类型：包含五种反映真实使用场景的查询风格：
1. 显式查询：直接的数据请求。
2. 隐式查询：间接或模糊的陈述。
3. 行为查询：生活方式或习惯改变。
4. 症状查询：身体或情绪症状。
5. 隐喻查询：比喻性表达。
推理字段：可选的自然语言推理步骤，用于解释用户意图、函数选择和时间范围确定的原因，可用于在函数调用前训练模型的显式推理能力。

数据生成与质量

生成方式：完全合成，使用多个大型语言模型生成以增加语言多样性并减少风格偏差。
验证标准：所有样本均经过验证，确保函数映射正确、时间范围有效且规范化、结构一致以及重复最小化。

预期用途

用于函数调用或工具使用的LLM微调。
心理健康对话代理研究。
基于推理的API选择实验。
可穿戴或健康助手原型开发。

定制与扩展

鼓励用户进行定制，例如：

将函数名称适配到自己的API。
添加新的传感器类型。
修改时间规范化规则。
为轻量级推理移除推理字段。
将查询翻译成其他语言。
添加特定文化的健康表达。

局限性

仅限英语。
完全合成（可能无法捕捉所有真实世界的表达方式）。
专注于可穿戴数据，而非临床诊断。

引用信息

如果使用此数据集，请引用： bibtex @misc{fozle_rabbi_shafi_2025, author = { Fozle Rabbi Shafi and M. Anwar Hossain and Salimur Choudhury }, title = { mind_call (Revision cd9cb55) }, year = 2025, url = { https://huggingface.co/datasets/frshafi/mind_call }, doi = { 10.57967/hf/7390 }, publisher = { Hugging Face } }

搜集汇总

数据集介绍

构建方式

在心理健康与可穿戴设备数据交叉领域，MindCall数据集采用全合成方法构建，旨在填补该领域公开数据集的空白。其构建过程利用多个大型语言模型生成多样化的自然语言查询，确保语言风格的丰富性并减少模型偏见。每个样本均经过严格验证，涵盖正确的函数映射、有效的时间范围归一化、结构一致性以及最小化重复，从而保证了数据质量与可靠性。数据集的设计遵循了受三星健康连接启发的标准化健康数据模式，确保了函数定义的现实性与互操作性。

特点

MindCall数据集的核心特点在于其专注于心理健康导向的应用场景，如睡眠、压力、身体活动与生理监测。数据集包含了五种不同风格的用户查询类型，从直接的数据请求到隐喻性表达，全面模拟真实世界中的语言使用多样性。此外，可选的自然语言推理字段为模型提供了明确的意图解释与函数选择依据，增强了模型的可解释性与鲁棒性。数据集的模块化设计允许用户轻松适配其他可穿戴平台、API或健康领域，展现了高度的灵活性与可扩展性。

使用方法

该数据集适用于训练和评估语言模型在将自然语言健康查询映射到结构化API调用方面的能力。用户可通过Hugging Face的datasets库直接加载数据集，进行模型微调或研究实验。数据集支持多种应用场景，包括心理健康对话代理的开发、推理感知的API选择研究以及可穿戴健康助手的原型设计。用户可根据自身需求，灵活定制函数名称、添加新的传感器类型或调整时间归一化规则，从而适配特定的API模式或研究目标。

背景与挑战

背景概述

在心理健康与可穿戴技术融合的研究背景下，MindCall数据集于2025年由Fozle Rabbi Shafi、M. Anwar Hossain和Salimur Choudhury等学者创建，旨在填补心理健康支持领域中可穿戴数据函数调用公开数据集的空白。该数据集聚焦于睡眠、压力、生理活动等心理健康导向用例，通过合成自然语言查询与结构化API调用的映射关系，为语言模型训练与评估提供专门资源。其设计借鉴了三星健康连接等标准化健康数据模式，强调模块化与可扩展性，推动了心理健康对话代理与可穿戴辅助系统的研究进展，对促进个性化健康监测工具的智能化发展具有重要影响力。

当前挑战

MindCall数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上，心理健康支持中的可穿戴数据函数调用需解决自然语言查询的多样性与模糊性挑战，例如用户可能使用隐喻或症状描述间接表达需求，要求模型具备深度意图理解与推理能力，而非依赖关键词匹配。构建过程中，数据集为完全合成生成，虽通过多语言模型增强语言多样性并验证结构一致性，但仍可能无法完全捕捉真实世界用户表达的复杂性与文化特异性，且目前仅限英语语境，限制了其在全球健康应用中的泛化潜力。

常用场景

经典使用场景

在心理健康与可穿戴设备数据融合的研究领域中，MindCall数据集被广泛用于训练和评估语言模型，以实现自然语言健康查询到结构化API调用的精准映射。该数据集通过涵盖睡眠、压力、身体活动等心理健康导向的用例，为模型提供了多样化的查询类型，包括显式、隐式、行为、症状和隐喻性表达，从而支持模型在真实场景下的意图识别与泛化能力。

实际应用

在实际应用层面，MindCall数据集可用于开发智能心理健康对话代理和可穿戴健康助手原型。这些系统能够解析用户的自然语言请求，如“我最近感觉疲劳”或“显示过去7天的睡眠数据”，并自动调用相应的传感器数据API，从而为用户提供个性化的健康监测与反馈。这种技术有助于推动预防性健康管理和远程健康支持服务的普及。

衍生相关工作

基于MindCall数据集，衍生了一系列经典研究工作，主要集中在心理健康对话系统的优化与扩展上。例如，研究者利用该数据集进行语言模型的微调，以增强其在工具使用和函数调用方面的性能；同时，也有工作探索如何将数据集适配到其他可穿戴平台或API架构中，并添加新的传感器模态（如心电图、情绪监测），进一步丰富了健康数据交互的应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集