HealthBench-JP
收藏Hugging Face2025-09-02 更新2025-09-03 收录
下载链接:
https://huggingface.co/datasets/li-lab/HealthBench-JP
下载链接
链接失效反馈官方服务:
资源简介:
HealthBench-JP是一个将HealthBench基准的5000个真实健康对话翻译成日文的数据集,用于评估在日语环境下医疗语言模型的表现。
提供机构:
LiLab
创建时间:
2025-09-01
原始信息汇总
HealthBench-JP 数据集概述
数据集简介
HealthBench-JP 是 HealthBench 的日语翻译版本,旨在评估人工智能系统在健康相关任务中的能力。该数据集包含 5,000 个真实的健康对话,每个对话均配有医生创建的定制评估标准。
关键特征
- 多语言支持:提供英语和日语双语内容
- 专业背景:原始数据由来自 60 个国家的 262 名医师合作构建
- 翻译方法:使用 GPT-5(无思维链推理)进行翻译,保持原始含义的保真度
- 数据规模:包含 1,000 到 10,000 条样本
数据结构
每个数据条目包含以下字段:
prompt_id:对话的唯一标识符prompt:对话轮次列表,包含:content:原始英语消息role:说话者角色(用户或助手)content_jp:翻译的日语消息role_jp:日语角色标签(ユーザー 或 アシスタント)
许可证信息
遵循原始 HealthBench 数据集的许可条款,使用 MIT 许可证。
适用任务
- 翻译任务
- 问答任务
- 医疗领域应用
搜集汇总
数据集介绍

构建方式
在医疗健康领域多语言评估需求日益增长的背景下,HealthBench-JP数据集通过自动化翻译技术构建而成。其核心流程采用GPT-5模型对原始英文医疗对话进行直接翻译,未采用思维链推理机制,确保了语义的准确传递。所有翻译结果均未经过人工后期编辑,保持了机器翻译的原始特征,最终形成包含日英双语对照的医疗对话数据集。
特点
该数据集最显著的特征在于其专业的医疗对话内容和完整的双语平行结构。每个对话单元均包含原始英文内容与精准对应的日文翻译,并保留完整的说话者角色标注。数据集涵盖5000个真实医疗场景对话,每个对话均配有专业医师制定的评估标准,为医疗语言模型的跨语言能力评估提供了坚实基础。
使用方法
研究人员可借助该数据集开展医疗对话系统的跨语言性能评估,通过对比模型在日英双语环境下的表现,分析文化差异对医疗语言理解的影响。使用时需加载JSON格式数据,根据prompt_id索引对话序列,通过对比content与content_jp字段进行双语对齐分析,同时结合角色标注信息构建完整的对话上下文建模。
背景与挑战
背景概述
医疗人工智能领域对多语言评估框架的需求日益增长,HealthBench-JP应运而生。该数据集由研究团队基于OpenAI的HealthBench基准构建,通过GPT-5机器翻译系统将5000组英文医患对话精准转化为日语版本。其核心价值在于填补了日语医疗对话评估数据的空白,为跨语言医疗大语言模型的性能测评提供了标准化工具。该数据集继承了原数据集由全球60个国家262名医师共同设计的专业评估体系,确保了医学内容的专业性和临床相关性。
当前挑战
数据集构建面临双重挑战:医学术语的跨语言精确传递要求翻译系统具备深厚的医学语言学知识,而文化适配性则需要克服日英语境下医疗表述差异的难题。在领域问题层面,该数据集致力于解决日语医疗对话生成与理解的评估瓶颈,其挑战在于如何建立兼顾语言学准确性和医学专业性的评价标准。构建过程中需确保机器翻译在保留原始医学意图的同时,符合日本医疗沟通规范,这对无人工校对的自动化流程提出了极高要求。
常用场景
经典使用场景
在医疗人工智能领域,HealthBench-JP数据集为研究者提供了评估日语医疗对话系统的标准基准。该数据集通过精确翻译的医患对话,支持模型在症状咨询、检验结果解读和医疗建议生成等场景下的性能测试,为日语医疗自然语言处理研究奠定了重要基础。
实际应用
在实际应用中,HealthBench-JP可作为医疗机构的AI助手开发测试基准,帮助优化日语患者的在线问诊体验。同时,该数据集为制药企业和医疗设备公司提供了本地化产品开发的语料支持,助力构建符合日本医疗规范的人工智能辅助诊断系统。
衍生相关工作
基于该数据集已衍生出多项重要研究,包括日语医疗对话生成模型的微调工作、跨语言医疗信息检索系统的对比实验,以及针对日本医疗术语特殊性的预处理方法研究。这些工作显著提升了日语医疗NLP领域的技术水平,为后续多语言医疗基准建设提供了重要参考。
以上内容由遇见数据集搜集并总结生成



