five

CARE-MI

收藏
arXiv2023-10-26 更新2024-06-21 收录
下载链接:
https://github.com/Meetyou-AI-Lab/CARE-MI
下载链接
链接失效反馈
官方服务:
资源简介:
CARE-MI是由Meetyou AI Lab创建的中文数据集,专注于评估大型语言模型在产科和儿科护理领域的错误信息生成。该数据集包含1612个专家审核的问题,旨在填补大型语言模型广泛应用与缺乏评估其错误信息生成能力的数据集之间的空白。CARE-MI不仅适用于评估中文环境下的长篇生成任务,还提供了一种创新的构建长篇生成评估基准的方法,可迁移至其他知识密集型领域和资源较少的语言中。数据集的应用领域主要集中在产科和儿科护理,旨在解决该领域中由语言模型无意中生成的错误信息问题。

CARE-MI is a Chinese dataset developed by Meetyou AI Lab, focusing on evaluating the misinformation generation capabilities of large language models (LLMs) in the fields of obstetric and pediatric care. This dataset contains 1,612 expert-reviewed questions, aiming to bridge the gap between the widespread adoption of large language models and the lack of datasets dedicated to assessing their misinformation generation abilities. CARE-MI is not only applicable for evaluating long-form generation tasks in Chinese contexts, but also provides an innovative method for constructing long-form generation evaluation benchmarks, which can be transferred to other knowledge-intensive domains and low-resource languages. The main application scenarios of this dataset are obstetric and pediatric care, with the objective of addressing the problem of misinformation unintentionally generated by language models in this field.
提供机构:
Meetyou AI Lab
创建时间:
2023-07-04
搜集汇总
数据集介绍
main_image_url
构建方式
在母婴护理这一高度敏感且知识密集的领域,CARE-MI数据集的构建采用了创新的合成数据生成范式。该过程整合了来自两个医学知识图谱(BIOS和CPubMed)和两个中文医学多项选择题库(MLEC-QA和MEDQA)的原始数据,并经过严格的领域关键词过滤以确保主题相关性。构建流程涵盖五个核心环节:首先基于原始数据生成事实正确的真实陈述;随后通过否定或答案替换的方式构造虚假陈述;接着利用大型语言模型(如ChatYuan)从真实陈述中自动生成判断题和开放式问题;继而采用BM25算法从中文维基百科和医学书籍中检索相关段落作为辅助知识;最后邀请医学领域专家对合成样本进行多轮人工审核与仲裁,剔除质量不佳的条目,最终形成包含1,612个高质量样本的基准数据集。
特点
CARE-MI数据集的核心特征体现在其针对性与创新性上。作为首个专注于中文母婴护理领域长文本生成误信息评估的基准,它填补了非英语语言在知识密集型敏感话题评估上的空白。数据集中的每个样本均包含专家审核的问题、对应的真实与虚假陈述,以及从权威来源检索的多段落支撑知识,为模型评估提供了丰富的上下文参照。其问题设计兼具判断题与开放式问答两种形式,能够全面考察模型的事实准确性、推理能力及解释生成质量。尤为重要的是,该数据集构建了一套可迁移至其他领域与低资源语言的通用范式,并配套提供了经过训练的自动化评判模型,旨在降低对昂贵人工评估的依赖,提升评估效率与可复现性。
使用方法
该数据集主要用于在零样本设置下评估中文大语言模型在母婴护理领域生成长文本时的误信息风险。研究人员可将数据集中的问题直接输入待测模型,收集其生成的自由形式答案。评估时需重点关注两个维度:答案的事实正确性,即内容是否与医学事实一致;以及答案的可解释性,即模型是否为其结论提供了清晰、合理的推导过程。为辅助评估,数据集提供了配套的自动化评判模型(基于LLaMA-13B-T微调),该模型能够以检索到的知识为参考,对模型输出的正确性与可解释性进行自动评分。此外,数据集完整的问题、答案及知识对也可用于模型微调或作为检索增强生成系统的测试基准,以推动更可靠、可信的领域专用语言模型的发展。
背景与挑战
背景概述
随着自然语言处理技术的飞速发展,大型语言模型在现实场景中的应用日益广泛,但其生成内容中存在的错误信息问题,尤其在医疗等敏感领域,可能引发严重后果。为应对这一挑战,由Meetyou AI实验室、厦门大学妇女互联网健康管理重点实验室、西南财经大学及大阪大学的研究团队于2023年联合创建了CARE-MI数据集。该数据集聚焦于母婴护理领域,旨在评估中文大型语言模型在长文本生成中的错误信息问题,填补了该领域缺乏专业评估基准的空白。通过整合知识图谱与多项选择题资源,并引入专家标注机制,CARE-MI不仅为模型性能提供了量化标准,其构建范式还可迁移至其他知识密集型领域与低资源语言,对推动中文医疗人工智能的发展具有重要影响。
当前挑战
CARE-MI数据集致力于解决母婴护理领域大型语言模型在长文本生成中产生错误信息的评估挑战,其核心在于如何准确量化模型输出的事实准确性。在构建过程中,研究团队面临多重困难:首先,母婴护理领域缺乏现成的中文评估数据,需从异构知识图谱与医学考试题库中筛选并融合高质量样本;其次,生成真实与虚假陈述时需确保语义严谨性,避免引入偏差,这依赖于复杂的规则设计与大模型辅助;此外,专家标注流程需协调多位医学专家,以保障标注的一致性与权威性,同时处理大量合成数据的质量控制问题。这些挑战共同凸显了在敏感领域构建可靠评估基准的复杂性与必要性。
常用场景
经典使用场景
在自然语言处理领域,CARE-MI数据集专为评估大型语言模型在长文本生成任务中的错误信息传播问题而设计。该数据集聚焦于母婴护理这一敏感且知识密集的领域,通过构建包含1,612个专家审核的问题及对应参考答案的基准,为研究者提供了系统评估模型生成内容事实准确性的标准化工具。其经典使用场景包括在零样本设置下测试模型对专业医学问题的回答能力,衡量模型在生成多句子段落时是否产生事实性错误或误导性陈述,从而揭示模型在特定垂直领域中的知识可靠性与局限性。
实际应用
在实际应用层面,CARE-MI数据集为开发安全可靠的医疗健康对话系统提供了关键评估工具。它可直接用于测试临床咨询机器人、孕期健康助手等应用在回答母婴护理问题时的信息准确性,帮助开发者识别并缓解模型可能产生的有害错误信息。此外,该数据集支撑的自动化评估模型能够集成到大型语言模型的持续监控流程中,实时检测生成内容的质量波动,为医疗人工智能产品的质量保障与风险控制提供技术基础,最终助力构建符合伦理规范且值得信赖的智能健康服务系统。
衍生相关工作
围绕CARE-MI数据集,已衍生出多项重要的相关研究工作。其创新的基准构建范式启发了后续研究将其迁移至其他知识密集型领域(如法律、金融)及低资源语言,推动了领域适应性评估基准的创建。基于该数据集训练的自动化评判模型为长文本生成评估提供了高效工具,促进了类似评估方法在更多场景中的应用。此外,该数据集揭示的模型在复杂推理任务上的弱点,激发了关于增强模型事实一致性、改进领域知识融合以及设计更鲁棒评估指标的一系列后续研究,丰富了错误信息检测与缓解的技术体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作