saheli

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/voiceunderveil150395/saheli

下载链接

链接失效反馈

官方服务：

资源简介：

SAHELI 是一个大规模合成的对话数据集，旨在促进孕产妇健康支持和具有文化背景的对话人工智能研究。该数据集包含超过 6,000 个多轮对话（121,200 条话语），这些对话基于代表印度城市和半城市背景的 101 个人口统计资料生成。每个对话模拟了人工智能伴侣与印度女性之间的互动，涵盖了 10 个主题维度（包括家庭参与、孕产妇自主权、传统与生物医学护理之间的协商等），并跨越孕产妇旅程的两个阶段：孕期和产后。数据集还捕捉了三种不同级别的行为变化（高、中、低），以反映沟通方式和文化取向的差异。SAHELI 为研究孕产妇健康互动中的行为模式、文化背景和对话理解提供了一个结构化的基准。数据集完全由大型语言模型（LLM）合成生成，不包含真实患者对话，且所有人口统计资料均来自结构化输入，不包含个人身份信息。数据集采用 CC-BY-4.0 许可发布。

SAHELI is a large-scale synthetic dialogue dataset designed to promote maternal health support and culturally contextual conversational AI research. The dataset contains over 6,000 multi-turn dialogues (121,200 utterances) generated based on 101 demographic profiles representing urban and semi-urban Indian contexts. Each dialogue simulates interactions between an AI companion and Indian women, covering 10 thematic dimensions (including family involvement, maternal autonomy, negotiation between traditional and biomedical care, etc.) and spanning two stages of the maternal journey: pregnancy and postpartum. The dataset also captures three different levels of behavioral change (high, medium, low) to reflect differences in communication styles and cultural orientations. SAHELI provides a structured benchmark for studying behavioral patterns, cultural contexts, and dialogue understanding in maternal health interactions. The dataset is entirely synthetically generated by large language models (LLMs), contains no real patient dialogues, and all demographic profiles are derived from structured inputs without personal identifiable information. The dataset is released under the CC-BY-4.0 license.

创建时间：

2026-05-06

原始信息汇总

SAHELI：一个文化扎根的孕产妇健康对话数据集

数据集概述

SAHELI 是一个大规模合成对话数据集，旨在促进孕产妇健康支持和文化扎根的对话式 AI 研究。数据集包含 6,000 多个多轮对话（121,200 条话语），这些对话基于代表印度城市和半城市背景的 101 个人口统计档案 生成。

每个对话模拟一个 AI 伴侣与一位印度女性之间的互动，涵盖 10 个主题维度（包括家庭参与、孕产妇自主权、传统与生物医学护理之间的协商等），并跨越 孕产旅程的两个阶段：孕期和产后。数据集捕捉了 三种分级行为变化（高、低、中），以反映沟通风格和文化取向的差异。

SAHELI 为研究孕产妇健康互动中的行为模式、文化扎根和对话理解提供了结构化的基准。

数据集结构

数据集的目录结构如下：

saheli/ ├── data/ │ └── train-00000-of-00001.parquet # 6,060 个对话（发布的数据集） ├── master.json # 结构化输入配置 ├── (生成过程中使用的概念结构) │ ├── P001/ # 档案目录（共 101 个） │ │ ├── BODY_OPEN/ # 主题目录（每个档案 10 个） │ │ │ ├── Pregnancy/ # 阶段目录（每个主题 2 个） │ │ │ │ ├── range_label_High.json │ │ │ │ ├── range_label_Mid.json │ │ │ │ └── range_label_Low.json │ │ │ └── Postpartum/ │ │ │ ├── range_label_High.json │ │ │ └── ... │ │ ├── COMM_NORMS/ │ │ └── ... │ ├── P002/ │ │ └── ... └── README.md

数据生成过程

该数据集完全使用大语言模型（LLM）合成生成。结构化输入在配置文件（master.json）中定义，指定了以下内容：

主题名称、代码和定义
分数范围指南
阶段关注点
行为标记
助手指导和回复提示

使用提示模板通过组合这些结构化变量动态构建输入，LLM 根据这些输入生成多轮孕产妇健康支持对话。

隐私与伦理

这是一个完全合成的数据集，不包含任何真实的患者对话。人口统计档案源自结构化输入，不包含个人身份信息。数据集旨在反映现实场景，同时避免敏感或有害内容。

该数据集不应用于：

临床决策
医疗诊断或治疗
在真实医疗系统中部署

许可证

该数据集以 CC-BY-4.0 许可证发布。

搜集汇总

数据集介绍

构建方式

SAHELI数据集采用全合成生成策略，依托大型语言模型（LLM）构建。首先，通过配置文件（master.json）定义结构化输入，涵盖主题名称、代码、定义、评分范围指南、阶段关注点、行为标记以及助手引导与回应线索等要素。随后，利用提示模板动态组合这些结构化变量，生成多轮对话。数据集基于101个代表印度城市与半城市背景的人口统计特征描述，围绕10个母婴健康主题维度、妊娠与产后两个交互阶段以及高、中、低三个行为变异性层级，系统性地生产出超过6,000轮对话（共计121,200条语句），确保了对话内容的多样性与文化根基。

特点

该数据集的核心特点在于其文化扎根性与结构化基准性。它模拟了AI助手与印度女性之间围绕家庭参与、母性自主权及传统与现代医疗协商等10个主题维度的真实互动，精准捕捉母婴健康支持中的文化细微差异。引入高、中、低三级行为变异范围，巧妙反映了沟通风格与文化取向的差异，为研究行为模式与文化扎根提供了分层框架。此外，数据集完全基于合成数据生成，不含真实患者信息，保障隐私伦理，同时保持了对话场景的现实性与敏感性，使其成为研究母婴健康互动中行为模式与对话理解的理想基准。

使用方法

SAHELI数据集以Parquet格式存储于data/train-00000-of-00001.parquet文件中，包含6,060轮对话，可直接加载用于训练与评估。研究人员可通过HuggingFace Datasets库便捷读取，示例如下：`from datasets import load_dataset; dataset = load_dataset('saheli')`。数据集适用于对话系统开发、行为模式分析及文化敏感型AI的基准测试，使用者应严格遵循CC-BY-4.0许可证，明确禁止将其用于临床决策、医疗诊断或真实医疗系统部署，仅限学术研究与模型优化场景。

背景与挑战

背景概述

SAHELI数据集由研究者在2025年前后创建，旨在填补低资源环境下文化适应性对话系统的空白，尤其是针对印度孕产妇健康领域。该数据集由来自印度城市和半城市背景的101个人口统计画像生成，包含超过6000轮对话（121,200条话语），覆盖妊娠和产后两个阶段、十个主题维度（如家庭参与、孕产妇自主权和传统与现代医疗的平衡）以及高、中、低三级行为变异。作为首个大规模且扎根于文化背景的孕产妇健康对话基准，SAHELI为文化导向的对话AI研究提供了结构化评估平台，推动了母婴健康领域的智能化支持研究。

当前挑战

该数据集面临的挑战包括：1）在领域层面，孕产妇健康对话需处理家庭动态、文化禁忌和医疗决策冲突等复杂社会文化因素，现有对话系统缺乏对印度语境下传统与现代医疗博弈的建模能力；2）在构建过程中，完全依赖大语言模型生成合成数据需确保文化真实性与行为多样性，但配置文件中预定义的十维度主题与三级行为标记可能无法完全覆盖真实交流中的微妙变异，同时伦理约束要求避免敏感内容却需保持场景实用性。

常用场景

经典使用场景

SAHELI数据集的核心应用在于构建面向印度女性孕产期健康支持的跨文化对话系统。该数据集包含超过6000轮多轮对话，覆盖孕期与产后两个关键阶段，并围绕家庭参与、产妇自主权、传统与现代医疗协商等十个文化维度展开。研究者可基于此数据集训练能够识别不同行为模式（高、中、低）和文化倾向的对话代理，从而推动文化敏感型健康助手的研发。其经典使用场景还包括在低资源环境下评估对话系统的文化适应性，以及模拟不同沟通风格下的孕产妇健康咨询交互，为技术开发提供结构化基准。

实际应用

在实际应用中，SAHELI数据集可支撑开发面向印度社区的健康教育聊天机器人，用于解答孕产妇关于营养、产检及产后护理的常见问题。它也可集成至非政府组织的移动健康应用中，为偏远地区女性提供匿名、非评判性的孕期支持。此外，该数据集的合成性质使其适合作为医疗对话系统的冷启动训练材料，在不涉及真实隐私风险的前提下，优化AI助手对文化特定用语（如家庭决策模式）的理解能力。企业级应用还包括对客服人员培训模拟系统的增强，提升跨文化沟通技巧。

衍生相关工作

SAHELI数据集的发布催生了多项开创性工作。研究者基于其十维主题框架设计了文化嵌入损失函数，用于提升对话系统的文化一致性。衍生工作包括开发行为等级自适应生成模型，能根据对话历史动态调整回应风格。另有工作利用该数据集探索了可解释AI在健康对话中的应用，通过注意力机制可视化文化维度对决策的影响。在多语言扩展研究中，SAHELI的对话结构被迁移至印地语和泰米尔语版本，推动了低资源语言健康对话研究的进展。这些工作共同构成了文化感知对话AI领域的重要奠基性成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集