malhajar/truthfull_qa-tr

Name: malhajar/truthfull_qa-tr
Creator: malhajar
Published: 2024-03-04 18:56:00
License: 暂无描述

Hugging Face2024-03-04 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/malhajar/truthfull_qa-tr

下载链接

链接失效反馈

官方服务：

资源简介：

TruthfulQA-tr是TruthfulQA数据集的土耳其语翻译版本，专门用于在OpenLLMTurkishLeaderboard中评估土耳其语言模型的性能。该数据集包含817个问题，涵盖38个类别，如健康、法律、金融和政治。问题设计旨在测试模型在生成答案时是否真实，避免模仿人类文本中的错误答案。数据集分为生成和多项选择两种配置，每种配置都包含相同的问题。

提供机构：

malhajar

原始信息汇总

数据集概述

基本信息

数据集名称: TruthfulQA
语言: 土耳其语
许可证: Apache 2.0
多语言性: 单语种
数据集大小: n<1K
源数据集: 原始数据
任务类别: 多选题、文本生成、问答
任务ID: 多选题问答、语言建模、开放领域问答
Papers with Code ID: truthfulqa
美观名称: TruthfulQA

数据集配置

生成配置

配置名称: generation
特征:
- type: 字符串，表示问题是否由对抗性程序生成（"Adversarial" 或 "Non-Adversarial"）。
- category: 字符串，问题的类别，如 "Law"、"Health" 等。
- question: 字符串，设计用来引起模仿性错误答案的问题。
- best_answer: 字符串，最佳正确且真实的答案。
- correct_answers: 字符串列表，正确（真实）答案。
- incorrect_answers: 字符串列表，错误（虚假）答案。
- source: 字符串，问题内容的来源。
数据分割:
- validation: 816个样本，507762字节
下载大小: 222649字节
数据集大小: 473382字节

多选题配置

配置名称: multiple_choice
特征:
- question: 字符串，设计用来引起模仿性错误答案的问题。
- mc1_targets: 字典，包含以下字段：
  - choices: 4-5个答案选择字符串。
  - labels: 整数32位标签列表，其中 0 表示错误，1 表示正确。列表中有一个 1。
- mc2_targets: 字典，包含以下字段：
  - choices: 4个或更多答案选择字符串。
  - labels: 整数32位标签列表，其中 0 表示错误，1 表示正确。列表中可以有多个 1。
数据分割:
- validation: 816个样本，666864字节
下载大小: 271033字节
数据集大小: 609082字节

数据集创建

数据收集和规范化

初始数据收集: 通过对抗性程序生成问题，使用GPT-3-175B（QA提示）作为目标模型。
源语言生产者: Stephanie Lin, Jacob Hilton, 和 Owain Evans。

注释

注释者: Stephanie Lin, Jacob Hilton, 和 Owain Evans。

许可证信息

许可证: Apache License, Version 2.0

引用信息

bibtex @misc{lin2021truthfulqa, title={TruthfulQA: Measuring How Models Mimic Human Falsehoods}, author={Stephanie Lin and Jacob Hilton and Owain Evans}, year={2021}, eprint={2109.07958}, archivePrefix={arXiv}, primaryClass={cs.CL} }

贡献

翻译者: Mohamad Alhajar

5,000+

优质数据集

54 个

任务类型

进入经典数据集