five

MENST

收藏
Hugging Face2025-01-11 更新2025-01-12 收录
下载链接:
https://huggingface.co/datasets/proadhikary/MENST
下载链接
链接失效反馈
官方服务:
资源简介:
MENST数据集是一个全面的、经过精心策划的资源,旨在推进月经健康教育和支持。它作为微调语言模型的基础,用于问答和对话任务,重点关注与月经健康相关的主题。数据集从健康信息门户、医疗机构、政府网站、全球组织和教育平台等多种来源编译而成,包含FAQ和问题-答案对。通过使用GPT-4和Gemini 1.5 Pro等技术对数据集进行了增强,并由领域专家验证了内容的准确性、文化相关性和同理心。元数据包括文档ID、文档名称、来源、链接和关键词等。数据集还开发了一个分类体系,涵盖了月经健康的多个主要类别和子类别。

The MENST Dataset is a comprehensive and carefully curated resource designed to advance menstrual health education and support. It serves as a foundational resource for fine-tuning large language models (LLMs) for question answering and conversational tasks, focusing on topics related to menstrual health. The dataset is compiled from diverse sources including health information portals, medical institutions, government websites, global organizations, and educational platforms, and contains frequently asked questions (FAQs) as well as question-answer pairs. It has been enhanced using technologies such as GPT-4 and Gemini 1.5 Pro, and the accuracy, cultural relevance, and empathy of its content have been verified by domain experts. Its metadata includes document ID, document name, source, link, keywords, and other relevant information. A classification system covering multiple major categories and subcategories of menstrual health has also been developed for the dataset.
创建时间:
2025-01-10
原始信息汇总

数据集概述

数据集名称

Menstrual Education kNowledge for Support and Training (MENST)

数据集简介

MENST数据集是一个全面且经过精心策划的资源,旨在推动月经健康教育和支持。该数据集为问答和对话任务的语言模型微调提供了基础,重点关注与月经健康相关的主题。

数据集详情

许可证

  • 许可证类型:MIT

任务类别

  • 任务类别:问答(Question-Answering)

语言

  • 语言:英语(en)

标签

  • 标签:医疗(medical)、生物学(biology)

数据集规模

  • 规模类别:10K < n < 100K

数据集用途

  • 用于微调语言模型,支持与月经健康相关的问答和对话任务。

数据集来源

数据集从多个权威来源编译而成,包括:

  • 健康信息门户
  • 医疗机构
  • 政府网站
  • 全球组织
  • 教育平台

数据增强

  • 使用GPT-4和Gemini 1.5 Pro进行提示技术,生成额外的问答对。
  • 领域专家验证生成内容,确保其准确性、文化相关性和同理心。

元数据创建

  • 文档ID:唯一标识符,以‘D’(非结构化文档)或‘F’(FAQ)开头。
  • 文档名称:文档的标题或标题。
  • 来源:组织或网站的名称。
  • 链接:文档的URL。
  • 关键词:与文档问题相关的关键词。

问答对元数据模式

  • 文档ID:源文档的标识符。
  • 问题:与主题相关的具体问题。
  • 答案:对应的答案。
  • 年龄组:目标人群(青少年、年轻成年人、成年人、老年人)。
  • 地区:地理焦点(农村、城市、两者)。
  • 关键词:内容标签(例如,药物、治疗)。
  • 使用的LLM:用于后处理的模型。

分类法

  • 与妇科医生合作开发的分类法,主要类别包括:
    • 解剖学
    • 正常月经(例如,初潮、更年期、正常流量)
    • 异常月经(例如,多囊卵巢综合症、经前综合症、月经不规律)
    • 怀孕
    • 生活方式
    • 支持
    • 社会

问答对创建

  • 数据集包含117个文档:
    • 14个FAQ文档(Set-1)来自医疗门户,作为黄金测试集。
    • 103个非结构化文档使用GPT-4和Gemini 1.5 Pro生成问答对,并由领域专家验证。

数据集获取

  • 如需获取24K版本,请发送邮件至prottay71@gmail.com。
搜集汇总
数据集介绍
main_image_url
构建方式
MENST数据集的构建过程体现了多源数据整合与专家验证的严谨性。数据集主要来源于健康信息门户、医疗机构、政府网站、全球组织和教育平台等权威渠道。通过从官方医学文档中提取FAQ和问答对,并结合GPT-4和Gemini 1.5 Pro等先进语言模型进行数据增强,生成了更多与月经健康相关的问答对。为确保数据的准确性和文化相关性,领域专家对生成内容进行了严格验证。此外,数据集还通过元数据标注和分类法构建,进一步提升了数据的结构化和可管理性。
特点
MENST数据集以其全面性和专业性著称,涵盖了月经健康的多个核心主题,包括解剖学、正常月经、异常月经、妊娠、生活方式、支持与社会等。数据集不仅包含丰富的问答对,还通过元数据标注和分类法对内容进行了系统化整理,确保数据的可检索性和适用性。特别值得一提的是,数据集中包含一个由14个FAQ文档组成的黄金测试集,为模型评估提供了高质量基准。此外,数据集的问答对还针对不同年龄组和地理区域进行了标注,增强了其实际应用的灵活性。
使用方法
MENST数据集适用于训练和微调语言模型,特别是在问答和对话任务中,能够显著提升模型对月经健康相关问题的理解和生成能力。研究人员可通过数据集中提供的元数据和分类法快速定位所需内容,并利用黄金测试集进行模型性能评估。此外,数据集的结构化设计使其能够轻松集成到现有的机器学习流程中,为开发智能教育工具和支持系统提供强有力的数据支持。使用前,建议用户仔细阅读元数据标注和分类法,以确保数据的正确应用。
背景与挑战
背景概述
MENST数据集是一个专注于月经健康教育与支持的综合资源,旨在通过问答和对话任务微调语言模型,推动月经健康领域的知识传播。该数据集由多个权威来源编译而成,包括健康信息门户、医疗机构、政府网站、全球组织和教育平台。数据集的核心研究问题在于如何通过机器学习和自然语言处理技术,提供准确、文化相关且富有同理心的月经健康信息。MENST数据集的创建标志着月经健康领域在人工智能应用中的重要进展,为相关研究和教育提供了坚实的基础。
当前挑战
MENST数据集在构建过程中面临多重挑战。首先,月经健康领域的知识具有高度的专业性和敏感性,要求数据来源的权威性和内容的准确性。其次,数据集的多样性和覆盖范围需要通过复杂的增强技术(如GPT-4和Gemini 1.5 Pro)生成额外的问答对,并经过领域专家的验证,以确保其文化相关性和情感共鸣。此外,数据集的元数据管理和分类体系的构建也需与妇科医生紧密合作,以确保主题的全面性和逻辑性。这些挑战不仅体现在数据集的构建过程中,也反映了在解决月经健康领域复杂问题时,技术与人文关怀的深度融合。
常用场景
经典使用场景
MENST数据集在医疗健康领域中的经典使用场景主要体现在其作为问答系统和对话模型的训练基础。该数据集通过整合来自医疗信息门户、政府网站和全球组织等多源数据,提供了丰富的月经健康相关问答对,特别适用于开发能够理解和回答月经健康问题的智能系统。这些系统可以广泛应用于在线健康咨询平台,为用户提供即时、准确的健康信息。
解决学术问题
MENST数据集解决了在月经健康领域中高质量、结构化数据的稀缺问题。通过提供经过专家验证的问答对和详细的元数据,该数据集为研究人员提供了一个可靠的资源,用于训练和评估自然语言处理模型。这不仅促进了月经健康教育的普及,还为相关疾病的早期识别和管理提供了数据支持,具有重要的学术研究价值。
衍生相关工作
MENST数据集的推出催生了一系列相关研究工作,特别是在月经健康领域的自然语言处理应用。例如,基于该数据集的研究开发了能够识别和分类月经相关问题的机器学习模型。此外,还有研究利用该数据集开发了多语言支持的健康咨询系统,进一步扩大了其应用范围和影响力。这些工作不仅提升了月经健康教育的质量,也为全球范围内的健康信息普及做出了贡献。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作