EleutherAI/truthful_qa_mc

Name: EleutherAI/truthful_qa_mc
Creator: EleutherAI
Published: 2023-04-29 06:24:04
License: 暂无描述

Hugging Face2023-04-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EleutherAI/truthful_qa_mc

下载链接

链接失效反馈

官方服务：

资源简介：

TruthfulQA-MC是一个用于衡量语言模型在生成问题答案时真实性的基准。该数据集包含684个问题，涵盖38个类别，如健康、法律、金融和政治。问题设计为某些人会因错误信念或误解而给出错误答案。为了表现良好，模型必须避免生成从模仿人类文本中学到的错误答案。该数据集是TruthfulQA的简化多选形式，原始数据集包含文本生成和多选组件，多选问题有可变数量的选项。通过删除所有少于四个选项的问题，并为剩余问题随机抽样四个选项，简化了数据集。数据集的结构包括问题、四个选项和正确答案的索引。数据集的创建过程包括对抗性程序，以测试语言模型的真实性。数据集的文本为英语，许可证为Apache 2.0。

提供机构：

EleutherAI

原始信息汇总

数据集概述

数据集名称

名称: TruthfulQA-MC

数据集属性

语言: 英语 (en)
许可证: Apache-2.0
多语言性: 单语种
大小: 小于1000条记录
来源: 原始数据

任务类型

任务类别: 多项选择, 问答
任务ID: 多项选择问答, 语言建模, 开放领域问答

数据集结构

配置名称: multiple_choice
特征:
- question: 字符串类型, 设计用于引发模仿性错误答案的问题
- choices: 字符串序列, 包含4个答案选项
- label: int32类型, 指示正确答案在choices中的索引
数据分割:
- 验证集: 684个示例, 194674字节

数据集创建

来源数据: 由Stephanie Lin, Jacob Hilton, 和 Owain Evans创建
注释: 由Stephanie Lin, Jacob Hilton, 和 Owain Evans进行
许可证信息: Apache License, Version 2.0
引用信息: bibtex @misc{lin2021truthfulqa, title={TruthfulQA: Measuring How Models Mimic Human Falsehoods}, author={Stephanie Lin and Jacob Hilton and Owain Evans}, year={2021}, eprint={2109.07958}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集