jzjiao/halueval-sft
收藏Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jzjiao/halueval-sft
下载链接
链接失效反馈官方服务:
资源简介:
HaluEval-SFT数据集是从HaluEval项目中派生出来的,专注于增强模型在识别幻觉方面的能力。该数据集包含65,000个数据点,分为训练集、验证集和测试集,比例为0.7/0.15/0.15。每个数据点包含`sft_text`、`input`、`ground_truth_output`和`type`四个字段,分别用于监督微调、模型输入、期望输出和原始类型。
The HaluEval-SFT dataset is derived from the HaluEval project, focusing on enhancing models' capability to identify hallucinations. It contains 65,000 data points, which are split into training, validation, and test sets with a ratio of 0.7/0.15/0.15. Each data point includes four fields: `sft_text`, `input`, `ground_truth_output`, and `type`, which are respectively used for supervised fine-tuning, model input, expected output, and original type.
提供机构:
jzjiao
原始信息汇总
HaluEval-SFT 数据集概述
数据集结构
HaluEval-SFT 数据集包含以下特征字段:
sft_text: 用于监督微调(SFT)的特定结构化数据。input: 模型在测试或验证阶段用于生成判断或响应的输入文本。ground_truth_output: 给定相应输入时模型应生成的预期输出。type: HaluEval 中的原始类型。
数据集划分
数据集分为训练集、测试集和验证集,具体信息如下:
- 训练集:包含 45500 个样本,总字节数为 190689411。
- 测试集:包含 9750 个样本,总字节数为 40645417。
- 验证集:包含 9750 个样本,总字节数为 39692546。
数据集大小
- 下载大小:133425877 字节
- 数据集总大小:271027374 字节
许可证
数据集使用 MIT 许可证。
任务类别
数据集适用于以下任务类别:
- 问答
- 对话系统
语言
数据集主要包含英语数据。
数据集名称
数据集的友好名称是 HaluEval-SFT。
数据集规模
数据集规模属于 10K<n<100K 类别。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,幻觉检测是评估模型可靠性的关键任务。HaluEval-SFT数据集源自HaluEval项目,专注于提升模型识别幻觉的能力。该数据集通过精心设计的流程构建,总计包含65,000个数据点,按照0.7:0.15:0.15的比例划分为训练集、验证集和测试集。每个数据点均包含多个关键字段,如sft_text、input、ground_truth_output和type,这些字段经过结构化处理,旨在为监督微调提供标准化输入,确保数据的一致性和可用性。
特点
该数据集在幻觉检测领域展现出显著特点。其核心特征在于每个样本均包含专门为监督微调设计的sft_text字段,以及用于模型测试的input和ground_truth_output字段,这为模型训练与评估提供了完整框架。数据集覆盖多种类型,通过type字段保留了原始HaluEval的分类信息,增强了数据的多样性和代表性。整体规模适中,包含65,000个样本,平衡了训练需求与计算资源,适用于多种自然语言处理任务,如问答和对话系统。
使用方法
使用HaluEval-SFT数据集时,研究人员可通过HuggingFace的datasets库便捷加载。例如,执行`load_dataset('jzjiao/halueval-sft', split = ["train"])`即可获取训练集。数据集的标准化字段允许直接用于模型微调,其中sft_text字段优化了监督学习流程,而input和ground_truth_output字段则支持幻觉检测的评估。用户可根据任务需求,灵活调用不同分割(如测试集或验证集),以进行模型训练、验证和性能分析,推动自然语言处理技术的进步。
背景与挑战
背景概述
随着大规模语言模型在自然语言处理领域的广泛应用,模型生成内容中的幻觉问题逐渐成为制约其可靠性的关键瓶颈。HaluEval-SFT数据集由RUCAIBox团队基于HaluEval项目构建,专注于通过监督微调技术提升模型对幻觉内容的识别能力。该数据集包含6.5万条经过精细标注的样本,涵盖问答与会话两大任务范畴,其数据划分遵循严谨的机器学习范式,旨在为幻觉检测研究提供标准化评估基准。该资源的推出,显著推动了可信人工智能领域在内容真实性验证方面的方法论进展。
当前挑战
在幻觉检测这一新兴研究方向,核心挑战在于如何构建能够全面覆盖多类型语义失真的评估体系。HaluEval-SFT需解决模型对事实性错误、逻辑矛盾及上下文不一致等复杂幻觉模式的辨识难题。数据构建过程中,标注者面临语义边界模糊的判定困境,需在保持标注一致性的同时处理知识密集型内容的验证。此外,平衡不同幻觉类型的分布、确保数据集的领域代表性,以及建立可靠的基准评估协议,均是构建过程中需要克服的技术障碍。
常用场景
经典使用场景
在自然语言处理领域,幻觉检测已成为评估模型可靠性的核心议题。HaluEval-SFT数据集通过提供结构化的监督微调文本,为研究者构建了精准的基准测试环境。该数据集广泛应用于大型语言模型的幻觉识别能力评估,尤其在问答和对话系统中,模型需基于输入文本生成判断,并与真实输出进行比对,从而系统性地检验其生成内容的准确性与一致性。
解决学术问题
该数据集直接针对自然语言生成中普遍存在的幻觉现象,即模型生成与输入事实相悖或无法验证的内容。通过提供明确的真实输出作为参照,HaluEval-SFT助力学术界量化模型的幻觉程度,并推动开发更稳健的检测与缓解算法。其意义在于建立了标准化的评估框架,使得不同模型间的性能比较成为可能,进而促进了可信人工智能领域的方法论创新与理论进展。
衍生相关工作
基于HaluEval-SFT的基准特性,学术界已衍生出一系列经典研究工作。这些工作主要集中在幻觉检测模型的架构创新、多模态场景下的幻觉评估,以及自动化评估指标的构建。部分研究进一步扩展了数据集的边界,将其应用于特定领域如科学文献或新闻摘要的幻觉分析,推动了检测技术向更细粒度、更复杂任务的发展。
以上内容由遇见数据集搜集并总结生成



