UPHILL

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/navreeetkaur/UPHILL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于PubHealth和Monant Medical Misinformation数据集构建，包含9725个带有前提假设的健康相关查询，每个查询都有与之关联的真实性。数据集提供了模型响应和查询内声明与模型响应之间的一致性预测。

This dataset is constructed based on the PubHealth and Monant Medical Misinformation datasets, comprising 9,725 health-related queries with associated premises, each annotated with its veracity. The dataset offers predictions on the consistency between model responses and the claims within the queries.

创建时间：

2023-11-29

原始信息汇总

数据集概述

数据集名称

Evaluating Large Language Models for Health-related Queries with Presuppositions

数据集内容

数据文件
- UPHILL.csv: 包含9725个健康相关查询，每个查询具有5种不同级别的预设前提。每个声明都有其真实性。对应每个查询，分享了模型响应和模型响应与查询内声明之间的一致性预测。
- queries.csv: 包含9725个查询，用于评估其他模型。

数据集统计

Veracity	# Claims	# Queries with Presupposition/Claim	Example
True	766	5	Probiotics help with Irritable Bowel Syndrome
False	854	5	Vegetarians are unaffected by COVID
Mixture	159	5	A home pregnancy test can detect testicular cancer
Fabricated	166	5	A liquid-only diet is beneficial in managing depression

数据格式

Fields	Type	Description
claim_id	string	声明的标识
claim	string	声明内容
claim_veracity	string	声明的真实性（`true`, `false`, `mixture` 或 `fabricated`）
veracity_explanation	string	声明真实性的解释
subjects	string	声明涉及的主题，如健康护理、公共卫生、心脏病等
date_published	string	声明在来源（即事实核查网站）上发布的日期
source_db	string	声明的数据集来源（`pubhealth`, `monant` 或 `fabricated`）
fact_checkers	string	事实核查人员，他们核查声明并确定其真实性
main_text	string	如果声明是新闻标题，此字段包含相应文章
sources	string	声明的来源，可能是事实核查或新闻评论网站
presupposition_level	string	查询的预设前提级别（`Neutral`, `Mild Presupposition`, `Unequivocal Presupposition`, `Writing Request`, `Writing Demand`）
query_with_presupposition	string	包含预设声明的查询
conversational_model	string	用于评估给定查询的对话模型（如 `text-davinci-002`, `gpt-3.5-turbo`, `gpt-4`, `bing-copilot`）
response_num	int	对话模型针对每个查询被查询5次，此字段指示模型给出的第n个响应
query_response_id	string	响应的标识，对应于查询
model_response	string	对应查询的模型响应
entailment_prediction	string	模型响应与声明之间的一致性预测（`agree`, `disagree`, `neutral`）
prediction_reasoning	string	一致性预测的理由（`agree`, `disagree` 或 `neutral`），由一致性模型生成

搜集汇总

数据集介绍

构建方式

UPHILL数据集的构建基于PubHealth和Monant Medical Misinformation两个数据集，通过对健康相关查询的预设条件进行分级处理，生成了包含9725条查询的数据集。每条查询均附有五个不同级别的预设条件，并配有相应的真实性标签。此外，数据集还包含了模型对这些查询的响应以及模型响应与查询中声明之间的一致性预测。

特点

UPHILL数据集的显著特点在于其对健康相关查询的预设条件进行了细致的分级处理，涵盖了从‘中性’到‘明确要求’的五个级别。每条查询不仅附有真实性标签，还提供了详细的解释和背景信息，如声明的主题、发布日期和来源等。此外，数据集还包含了多个大型语言模型对查询的响应及其一致性预测，为模型评估提供了丰富的资源。

使用方法

使用UPHILL数据集时，用户可以通过提供的评估脚本对模型响应进行一致性预测，并生成包含预测结果和推理的输出文件。此外，数据集还提供了生成带有预设条件的查询的脚本，用户可以根据需要生成新的查询。通过这些工具，研究人员可以系统地评估和比较不同模型在处理健康相关查询时的表现。

背景与挑战

背景概述

UPHILL数据集由Navreet Kaur、Monojit Choudhury和Danish Pruthi于2023年创建，旨在评估大型语言模型在处理带有预设前提的健康相关查询时的表现。该数据集基于PubHealth和Monant Medical Misinformation数据集，包含了9725条健康相关查询，每条查询具有五种不同级别的预设前提，并附有相应的真实性标签。UPHILL数据集的核心研究问题在于探索大型语言模型在处理复杂健康信息时的准确性和一致性，尤其是在面对不同预设前提和真实性级别的查询时。该数据集的发布对健康信息处理领域具有重要意义，为未来模型评估和改进提供了宝贵的基准数据。

当前挑战

UPHILL数据集在构建过程中面临多项挑战。首先，如何设计并生成具有不同预设前提的健康相关查询，以确保查询的多样性和复杂性，是一个重要的技术难题。其次，评估模型在处理这些查询时的响应准确性，尤其是区分支持、反对或中立的响应，需要精确的推理和判断。此外，数据集的真实性标签和解释的准确性也是一大挑战，确保每条查询的真实性标签和解释能够准确反映其内容的真实性。最后，如何有效地评估和比较不同大型语言模型在处理这些查询时的表现，也是一个需要解决的问题。

常用场景

经典使用场景

UPHILL数据集在健康相关查询的预设条件下，为评估大型语言模型（LLMs）的响应能力提供了丰富的资源。该数据集通过包含9725个健康相关查询，每个查询具有五种不同的预设级别，能够系统地测试模型在处理复杂健康声明时的表现。通过对比模型生成的响应与查询中的声明，研究者可以评估模型在不同预设级别下的准确性和一致性，从而为健康领域的信息处理提供科学依据。

实际应用

在实际应用中，UPHILL数据集可用于开发和验证健康信息检索系统、智能健康咨询平台以及自动健康声明验证工具。通过利用该数据集，开发者可以训练和测试模型，确保其在处理用户健康查询时能够提供准确、一致且可靠的响应，从而提升公众对健康信息的信任度和使用体验。

衍生相关工作

基于UPHILL数据集，研究者已开展了一系列相关工作，包括改进健康声明的自动验证算法、优化预设条件下的模型响应生成策略，以及探索不同预设级别对模型性能的影响。这些工作不仅提升了模型在健康领域的应用效果，还为未来在更广泛领域中的预设条件处理提供了理论和实践基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集