five

TruthfulQA-multilingual

收藏
arXiv2025-02-13 更新2025-02-15 收录
下载链接:
https://huggingface.co/datasets/HiTZ/truthfulqa-multi
下载链接
链接失效反馈
官方服务:
资源简介:
TruthfulQA-multilingual数据集是由TruthfulQA英文版翻译而来的多语言版本,包含了巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语四种语言。该数据集由HiTZ Center等机构创建,旨在评估大型语言模型在不同语言环境下的真实性。数据集共有817个问题,涵盖了38个类别,旨在复制人类可能具有的错误信念和误解。该数据集可用于评估不同语言的大型语言模型的真实性,以解决因语言差异可能带来的评估偏差问题。

The TruthfulQA-multilingual dataset is a multilingual adaptation translated from the original English version of the TruthfulQA dataset, covering four languages: Basque, Catalan, Galician, and Spanish. Developed by institutions including the HiTZ Center, this dataset is designed to evaluate the truthfulness of large language models (LLMs) across diverse linguistic contexts. It includes 817 questions spanning 38 categories, with the goal of replicating the false beliefs and misconceptions that humans may hold. This dataset can be employed to assess the truthfulness of LLMs in different languages, thereby addressing evaluation bias potentially stemming from language disparities.
提供机构:
HiTZ Center - Ixa, University of the Basque Country, UPV/EHU; Elhuyar; Centro de Investigación en Tecnoloxías Intelixentes (CiTIUS), Universidade de Santiago de Compostela; Departament de Traducció i Ciències del Llenguatge, Universitat Pompeu Fabra
创建时间:
2025-02-13
搜集汇总
数据集介绍
main_image_url
构建方式
TruthfulQA-multilingual数据集通过专业翻译的方式,将原有的英语TruthfulQA数据集扩展到了巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语。为了保证不同语言版本之间的平行性,翻译过程中保留了原有问题的文化背景,主要针对谚语、缩写词和专有名词等进行了适当的调整。例如,对于谚语和误引用,采用了直译的方式;对于误认为缩写的单词,保留了英语单词,并在答案中添加了翻译说明;对于专有名词,则尽可能使用已建立的等价词,如果没有则采用借词的方式。此外,对于缺乏等价翻译的文化元素,则采用了一般化的策略。通过这种方式,TruthfulQA-multilingual数据集在保留了原有问题的文化背景的同时,也适应了不同语言的特点。
特点
TruthfulQA-multilingual数据集的特点在于它是一个多语言的基准数据集,旨在评估大型语言模型(LLMs)在不同语言中的真实性。该数据集涵盖了巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语,其中除了西班牙语外,其他三种语言都是低资源语言。这使得TruthfulQA-multilingual数据集成为一个重要的研究工具,可以用来评估LLMs在不同语言环境下的真实性和信息性。此外,TruthfulQA-multilingual数据集还包含了多种类型的评估方法,包括人工评估、多项选择题指标和LLM-as-a-Judge评分,从而可以更全面地评估LLMs的真实性。
使用方法
使用TruthfulQA-multilingual数据集进行LLMs的真实性评估时,首先需要对LLMs进行训练和微调,使其能够适应不同语言的特点。然后,可以使用多项选择题指标和LLM-as-a-Judge评分方法对LLMs的真实性进行自动评估。此外,还可以通过人工评估方法对LLMs的真实性进行更细致的评估。最后,根据评估结果,可以对LLMs的真实性进行进一步的改进和优化。需要注意的是,在进行评估时,应该考虑LLMs在不同语言环境下的真实性和信息性,以及文化背景和时效性等因素的影响。
背景与挑战
背景概述
在人工智能领域,语言模型的真实性评估对于避免误导和建立用户信任至关重要。现有的真实性评估主要基于英语数据集,例如TruthfulQA,其通过模仿人类的错误回答来评估模型的真实性和信息性。然而,跨语言的真实性评估仍然是一个未被充分探索的领域。TruthfulQA-multilingual数据集的创建旨在填补这一空白,它是一个专业的翻译扩展,旨在评估在巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语中的真实性。该数据集由HiTZ中心、Ixa、巴斯克大学等研究机构的专业研究人员创建,旨在扩展对大型语言模型真实性的评估,使其超越英语。TruthfulQA-multilingual数据集的引入,不仅扩展了评估范围,而且为研究不同语言中LLM的真实性提供了宝贵的资源。
当前挑战
尽管TruthfulQA-multilingual数据集为真实性评估提供了多语言视角,但仍面临一些挑战。首先,不同语言资源的不平衡导致模型在不同语言中的真实性表现存在差异,例如,在资源匮乏的语言中,模型的真实性表现可能较差。其次,评估方法的可靠性也是一个挑战,尽管LLM-as-a-Judge方法与人工评估的相关性较高,但其仍然无法完全捕捉人工评估的准确性和细微差别。此外,静态数据集缺乏本地知识和动态性,难以反映和应对现实世界的挑战。最后,如何将机器翻译作为一种可扩展的方法,以扩展真实性数据集到更多语言,也是一个需要进一步研究的挑战。
常用场景
经典使用场景
TruthfulQA-multilingual数据集主要用于评估大型语言模型(LLMs)在不同语言中的真实性。通过对12种最先进的开放LLMs进行评估,该数据集可以帮助研究人员了解LLMs在不同语言环境下的表现,并揭示其在不同语言中的真实性和信息性的差异。
解决学术问题
该数据集解决了LLMs在不同语言中真实性和信息性评估的难题。由于LLMs的真实性评估主要在英语中进行,而跨语言的真实性能力尚未得到充分探索,因此TruthfulQA-multilingual数据集的推出为评估LLMs在不同语言中的真实性提供了重要支持。此外,该数据集还强调了信息性在真实性评估中的重要作用,并为未来LLMs的评估提供了新的视角。
衍生相关工作
TruthfulQA-multilingual数据集的推出为相关研究工作提供了重要的基础。例如,该数据集可以用于评估LLMs在不同语言中的真实性和信息性,为LLMs的开发和应用提供指导;同时,该数据集还可以用于研究LLMs在不同语言环境下的表现,为LLMs的优化和改进提供依据。此外,该数据集还可以与其他相关数据集进行比较,以揭示LLMs在不同语言中的真实性和信息性的差异,并为未来LLMs的评估提供新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作