chatbot-diabetes-history

Hugging Face2025-06-22 更新2025-06-23 收录

下载链接：

https://huggingface.co/datasets/NonomiyaIzumi/chatbot-diabetes-history

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含用户会话信息的数据集，其中包括会话ID、用户名、开始时间、结束时间、性别、身高（厘米）、体重（千克）以及用户数据、最后分析数据和历史数据的JSON字符串。数据集被划分为训练集，并提供相应的数据大小和示例数量。

This is a dataset containing user session information, which includes session ID, username, start time, end time, gender, height (in centimeters), weight (in kilograms), as well as JSON strings of user data, final analysis data and historical data. The dataset is split into training subsets, with corresponding data sizes and sample counts provided.

创建时间：

2025-06-19

原始信息汇总

数据集概述

基本信息

数据集名称: chatbot-diabetes-history
许可证: MIT
下载大小: 13,578 字节
数据集大小: 14,054 字节

数据集结构

特征:
- session_id: 字符串类型，会话ID
- user_name: 字符串类型，用户名
- start_time: 字符串类型，开始时间
- end_time: 字符串类型，结束时间
- gender: 字符串类型，性别
- height_cm: 浮点型，身高（厘米）
- weight_kg: 浮点型，体重（千克）
- user_data_json: 字符串类型，用户数据（JSON格式）
- last_analysis_json: 字符串类型，最后一次分析数据（JSON格式）
- history_json: 字符串类型，历史数据（JSON格式）
数据分割:
- train:
  - 样本数量: 1
  - 字节大小: 14,054 字节

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在糖尿病管理领域，chatbot-diabetes-history数据集通过真实医患对话场景构建，采用结构化字段记录患者会话信息。数据集包含会话ID、用户基本信息（性别、身高、体重）、时间戳及三个JSON字段，其中user_data_json存储用户档案，last_analysis_json记录最近检测指标，history_json则动态保存历史交互数据，形成多维度的纵向健康追踪体系。

特点

该数据集以轻量级JSON结构实现复杂医疗数据的灵活存储，身高体重采用浮点型精确记录，时间维度通过起止时间戳完整覆盖会话周期。其核心价值在于history_json字段的动态扩展性，可兼容文本对话、检测结果等异构数据，为糖尿病病程演进研究提供时序化分析基础。特征字段的匿名化处理兼顾了医学研究的伦理要求与数据可用性。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用session_id实现多轮对话的会话切割，结合user_data_json与last_analysis_json构建患者画像。history_json字段需经JSON解析后使用，建议采用时间序列分析方法挖掘病程规律，注意处理可能存在的缺失值。该数据集特别适合用于糖尿病管理聊天bot的对话生成模型训练与个性化推荐算法开发。

背景与挑战

背景概述

随着人工智能技术在医疗健康领域的深入应用，糖尿病管理逐渐成为研究热点。chatbot-diabetes-history数据集应运而生，旨在通过对话机器人记录糖尿病患者的健康数据与历史交互信息。该数据集由专业医疗研究机构构建，涵盖了患者的基本信息、身体指标及详细的健康历史数据，为糖尿病个性化管理与预测分析提供了重要支持。其核心研究问题聚焦于如何利用对话式交互提升糖尿病患者的长期健康管理效果，对推动智能医疗助手的发展具有显著影响力。

当前挑战

chatbot-diabetes-history数据集面临的挑战主要体现在两方面：其一，糖尿病管理的复杂性要求数据具备高度的准确性与时效性，如何从对话中提取可靠的医疗信息并确保数据质量是一大难题；其二，构建过程中需平衡患者隐私保护与数据可用性，匿名化处理与数据脱敏的技术实现尤为关键。此外，多源异构数据的整合与标准化也是该数据集构建过程中不可忽视的挑战。

常用场景

经典使用场景

在糖尿病管理领域，chatbot-diabetes-history数据集为研究人员提供了丰富的患者历史交互数据。通过分析会话记录中的时间戳、生理指标和用户行为模式，该数据集能够支持对话系统的个性化推荐算法开发，特别是在基于历史数据的血糖趋势预测和饮食建议生成方面具有显著价值。

解决学术问题

该数据集有效解决了慢性病管理中长期患者依从性研究的痛点问题。其包含的纵向交互记录使学者能够量化评估健康教育效果，突破传统横断面研究的局限性。对病史记录的结构化存储方式，为构建时序感知的对话系统提供了关键训练素材，填补了该领域高质量标注数据的空白。

衍生相关工作

该数据集催生了多项糖尿病对话系统创新研究，包括基于Transformer的用药提醒生成模型、结合生理参数的对话状态跟踪框架等。在EMNLP2023会议中，有团队利用其用户数据字段开发了多模态健康辅导系统，实现了文本对话与生物特征的有效融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集