HalluVerse25
收藏arXiv2025-03-11 更新2025-03-13 收录
下载链接:
http://arxiv.org/abs/2503.07833v1
下载链接
链接失效反馈官方服务:
资源简介:
HalluVerse25是一个多语言大型语言模型幻觉数据集,由德克萨斯A&M大学创建,包含英语、阿拉伯语和土耳其语三种语言,共3126条数据样本。该数据集通过自动向事实性句子中注入幻觉内容,并经过人工标注来保证数据质量,旨在帮助研究人员深入理解不同类型和语言的幻觉现象,并评估私有大型语言模型在检测幻觉方面的性能。
HalluVerse25 is a multilingual large language model hallucination dataset created by Texas A&M University. It covers three languages: English, Arabic and Turkish, with a total of 3,126 data samples. This dataset is constructed by automatically injecting hallucinatory content into factual sentences, and its data quality is guaranteed via manual annotation. It aims to help researchers gain in-depth insights into hallucination phenomena across different types and languages, as well as evaluate the performance of proprietary large language models in hallucination detection.
提供机构:
德克萨斯A&M大学
创建时间:
2025-03-11
搜集汇总
数据集介绍

构建方式
HalluVerse25数据集的构建过程首先从Wikidata中提取了500个人物实体的传记数据,并通过SPARQL查询获取了这些实体在英语、阿拉伯语和土耳其语中的维基百科链接。随后,使用BeautifulSoup库从每个页面中提取了至少包含20个句子的文本,并利用GPT-4模型从这些文本中提取了五个事实性句子。接下来,通过随机选择和提示工程技术,GPT-4被指导向这些句子中注入实体、关系和句子级别的幻觉内容。最后,通过两位母语为英语、阿拉伯语和土耳其语的 annotator 进行人工标注,确保数据质量。该数据集涵盖了英语、阿拉伯语和土耳其语三种语言,每种语言分别包含1310、828和978个数据样本。
特点
HalluVerse25数据集是一个细粒度的多语言大型语言模型幻觉数据集,它将幻觉分为实体、关系和句子三个级别,并涵盖了英语、阿拉伯语和土耳其语三种语言。该数据集通过人工标注确保了数据质量,并通过实验评估了多种大型语言模型在检测不同语言和幻觉类型方面的性能。该数据集的特点是包含了细粒度的幻觉标注,这使得研究者可以更深入地了解和探索不同语言和幻觉类型之间的差异。
使用方法
使用HalluVerse25数据集时,首先需要了解数据集中的幻觉类型和标注方式。研究者可以根据自己的需求选择使用数据集中的部分或全部数据,例如,可以选择只使用实体级别的幻觉数据进行实验。此外,还可以使用数据集中的幻觉数据进行模型训练和评估,以研究大型语言模型在不同语言和幻觉类型方面的性能。需要注意的是,在使用数据集时,应遵循数据集的版权和使用协议,并在研究成果中正确引用数据集的来源。
背景与挑战
背景概述
随着大型语言模型(LLMs)在自然语言处理(NLP)任务中的广泛应用,其生成非事实内容的问题日益凸显,这种现象被称为“幻觉”。为了深入理解LLMs在不同语言环境中产生的幻觉类型,Samir Abdaljalil、Hasan Kurban和Erchin Serpedin等研究人员于2025年创建了HalluVerse25数据集。该数据集涵盖了英语、阿拉伯语和土耳其语三种语言,共计3,116个样本,旨在为研究LLMs在不同语言环境中产生的幻觉提供细粒度的多语言基准数据集。数据集的构建过程包括从Wikidata中提取事实性传记句子,使用LLM注入幻觉,并由人类进行严格的标注以确保数据质量。HalluVerse25的发布对于推动LLMs幻觉检测和缓解研究具有重要意义。
当前挑战
HalluVerse25数据集的创建和评估面临着一些挑战。首先,LLMs在生成幻觉时可能会引入多种类型的错误,包括实体级别、关系级别和句子级别的幻觉。这些错误可能以不同的方式影响文本的意义和结构,使得检测和分类这些错误变得复杂。其次,构建多语言幻觉数据集需要对不同语言的特点和幻觉类型有深入的了解,以确保数据集的多样性和代表性。此外,LLMs在检测和分类幻觉方面的性能差异也需要进一步研究和改进,以提升其在多语言环境中的准确性和可靠性。为了应对这些挑战,研究人员需要不断探索新的技术和方法,以改进LLMs的幻觉检测和缓解能力,并推动多语言幻觉数据集的构建和应用。
常用场景
经典使用场景
HalluVerse25数据集主要用于评估大型语言模型(LLM)在不同语言环境中生成非事实内容的能力。该数据集通过在真实的人物传记句子中注入幻觉,并对这些句子进行精细的标注,为研究者提供了深入理解不同类型幻觉的实例。此外,HalluVerse25还用于测试和比较不同LLM在检测幻觉方面的性能,为模型改进提供了宝贵的参考。
衍生相关工作
HalluVerse25数据集的推出促进了幻觉检测和生成领域的研究。基于该数据集,研究者可以进一步探索不同语言和文化背景下的幻觉现象,以及LLM在不同任务中的幻觉生成机制。此外,HalluVerse25还为开发更精确的幻觉检测工具和模型改进提供了重要的数据资源。未来,HalluVerse25有望成为多语言幻觉检测和生成领域的重要基准数据集,推动相关研究的发展。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在自然语言处理(NLP)任务中的广泛应用,模型生成非事实内容,即“幻觉”的问题日益突出。HalluVerse25数据集的引入填补了多语言环境中细粒度幻觉数据集的空白,为研究LLMs在不同语言和文化背景下生成幻觉的模式提供了重要资源。该数据集通过将幻觉注入真实的人物传记句子中,并由人类进行严格的标注,确保了数据的质量。研究结果表明,现有的LLMs在检测幻觉方面存在一定的局限性,尤其是在句子级别的幻觉检测上。这表明,未来研究需要进一步探索更精确的幻觉检测方法,以及如何提高LLMs在不同语言和文化背景下的幻觉生成能力。此外,HalluVerse25数据集的构建和标注流程为类似数据集的创建提供了可复现的范例,有助于推动LLMs幻觉检测领域的标准化和规范化。
相关研究论文
- 1HalluVerse25: Fine-grained Multilingual Benchmark Dataset for LLM Hallucinations德克萨斯A&M大学 · 2025年
以上内容由遇见数据集搜集并总结生成



