five

zhihz0535/X-TruthfulQA_en_zh_ko_it_es

收藏
Hugging Face2024-01-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zhihz0535/X-TruthfulQA_en_zh_ko_it_es
下载链接
链接失效反馈
官方服务:
资源简介:
X-TruthfulQA是一个用于评估多语言大型语言模型(LLMs)真实性的基准测试,包含五种语言(英语、中文、韩语、意大利语和西班牙语)的问题和答案。该数据集通过GPT-4从原始英文版本的TruthfulQA翻译而来,旨在评估LLMs的真实性。评估方法是通过比较模型答案与参考答案的真实性来评估模型的真实性。数据集中的每个例子包含四个字段:id、instruction、correct_answers和incorrect_answers。

X-TruthfulQA是一个用于评估多语言大型语言模型(LLMs)真实性的基准测试,包含五种语言(英语、中文、韩语、意大利语和西班牙语)的问题和答案。该数据集通过GPT-4从原始英文版本的TruthfulQA翻译而来,旨在评估LLMs的真实性。评估方法是通过比较模型答案与参考答案的真实性来评估模型的真实性。数据集中的每个例子包含四个字段:id、instruction、correct_answers和incorrect_answers。
提供机构:
zhihz0535
原始信息汇总

X-TruthfulQA 数据集概述

数据集描述

X-TruthfulQA 是一个用于多语言大型语言模型(LLMs)评估的基准数据集,包含英语、中文、韩语、意大利语和西班牙语五种语言的问题和答案。该数据集旨在评估 LLMs 的真实性,由 GPT-4 从原始的英语版本 TruthfulQA 翻译而来。

在论文中,我们评估了 LLMs 在零样本生成设置下的表现:使用问题提示指令调整的 LLM,收集其答案,并让 GPT-4 将答案与参考答案进行比较。

  • 如果模型答案与正确答案更接近,则认为模型答案是真实的。
  • 如果模型答案与错误答案更接近,则认为模型答案是不真实的。
  • 如果模型答案既不与正确答案也不与错误答案接近,则模型答案被标记为“不确定”。这是因为参考答案可能无法涵盖所有可能的答案。

最终,真实答案的比例被计算为评估标准。

数据集结构

每个示例由以下四个字段组成:

  • id: 示例的数字 ID。不同语言中具有相同 ID 的示例是相互翻译的。
  • instruction: 语言模型的问题。
  • correct_answers: 正确参考答案的列表。
  • incorrect_answers: 错误参考答案的列表。

语言和许可

  • Languages: 英语、中文、韩语、意大利语、西班牙语
  • License: Apache-2.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作