saheli
收藏SAHELI:一个文化扎根的孕产妇健康对话数据集
数据集概述
SAHELI 是一个大规模合成对话数据集,旨在促进孕产妇健康支持和文化扎根的对话式 AI 研究。数据集包含 6,000 多个多轮对话(121,200 条话语),这些对话基于代表印度城市和半城市背景的 101 个人口统计档案 生成。
每个对话模拟一个 AI 伴侣与一位印度女性之间的互动,涵盖 10 个主题维度(包括家庭参与、孕产妇自主权、传统与生物医学护理之间的协商等),并跨越 孕产旅程的两个阶段:孕期和产后。数据集捕捉了 三种分级行为变化(高、低、中),以反映沟通风格和文化取向的差异。
SAHELI 为研究孕产妇健康互动中的行为模式、文化扎根和对话理解提供了结构化的基准。
数据集结构
数据集的目录结构如下:
saheli/ ├── data/ │ └── train-00000-of-00001.parquet # 6,060 个对话(发布的数据集) ├── master.json # 结构化输入配置 ├── (生成过程中使用的概念结构) │ ├── P001/ # 档案目录(共 101 个) │ │ ├── BODY_OPEN/ # 主题目录(每个档案 10 个) │ │ │ ├── Pregnancy/ # 阶段目录(每个主题 2 个) │ │ │ │ ├── range_label_High.json │ │ │ │ ├── range_label_Mid.json │ │ │ │ └── range_label_Low.json │ │ │ └── Postpartum/ │ │ │ ├── range_label_High.json │ │ │ └── ... │ │ ├── COMM_NORMS/ │ │ └── ... │ ├── P002/ │ │ └── ... └── README.md
数据生成过程
该数据集完全使用大语言模型(LLM)合成生成。结构化输入在配置文件(master.json)中定义,指定了以下内容:
- 主题名称、代码和定义
- 分数范围指南
- 阶段关注点
- 行为标记
- 助手指导和回复提示
使用提示模板通过组合这些结构化变量动态构建输入,LLM 根据这些输入生成多轮孕产妇健康支持对话。
隐私与伦理
这是一个完全合成的数据集,不包含任何真实的患者对话。人口统计档案源自结构化输入,不包含个人身份信息。数据集旨在反映现实场景,同时避免敏感或有害内容。
该数据集不应用于:
- 临床决策
- 医疗诊断或治疗
- 在真实医疗系统中部署
许可证
该数据集以 CC-BY-4.0 许可证发布。




