five

RAGTruth

收藏
arXiv2025-09-30 收录
下载链接:
https://github.com/ParticleMedia/RAGTruth
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个基准数据集,它对大型语言模型生成的回应中出现的幻觉进行了标注,涵盖了三种场景:问答(QA)、数据到文本生成(Data2Text)以及新闻摘要(Summarization)。幻觉部分在字符级别进行了标记,并且没有官方的验证集划分;随机抽取了450个实例用于验证。该数据集规模达到18,000个标注回应,任务是对 token 级别的幻觉进行检测。

This is a benchmark dataset for annotating hallucinations in responses generated by large language models, covering three scenarios: Question Answering (QA), Data-to-Text Generation (Data2Text), and News Summarization. Hallucinations are marked at the character level, and no official validation split is provided; 450 instances are randomly sampled for validation purposes. The dataset contains 18,000 annotated responses, with the task focusing on token-level hallucination detection.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作