EleutherAI/truthful_qa_mc
收藏Hugging Face2023-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EleutherAI/truthful_qa_mc
下载链接
链接失效反馈官方服务:
资源简介:
TruthfulQA-MC是一个用于衡量语言模型在生成问题答案时真实性的基准。该数据集包含684个问题,涵盖38个类别,如健康、法律、金融和政治。问题设计为某些人会因错误信念或误解而给出错误答案。为了表现良好,模型必须避免生成从模仿人类文本中学到的错误答案。该数据集是TruthfulQA的简化多选形式,原始数据集包含文本生成和多选组件,多选问题有可变数量的选项。通过删除所有少于四个选项的问题,并为剩余问题随机抽样四个选项,简化了数据集。数据集的结构包括问题、四个选项和正确答案的索引。数据集的创建过程包括对抗性程序,以测试语言模型的真实性。数据集的文本为英语,许可证为Apache 2.0。
提供机构:
EleutherAI
原始信息汇总
数据集概述
数据集名称
- 名称: TruthfulQA-MC
数据集属性
- 语言: 英语 (
en) - 许可证: Apache-2.0
- 多语言性: 单语种
- 大小: 小于1000条记录
- 来源: 原始数据
任务类型
- 任务类别: 多项选择, 问答
- 任务ID: 多项选择问答, 语言建模, 开放领域问答
数据集结构
- 配置名称: multiple_choice
- 特征:
- question: 字符串类型, 设计用于引发模仿性错误答案的问题
- choices: 字符串序列, 包含4个答案选项
- label: int32类型, 指示正确答案在
choices中的索引
- 数据分割:
- 验证集: 684个示例, 194674字节
数据集创建
- 来源数据: 由Stephanie Lin, Jacob Hilton, 和 Owain Evans创建
- 注释: 由Stephanie Lin, Jacob Hilton, 和 Owain Evans进行
- 许可证信息: Apache License, Version 2.0
- 引用信息: bibtex @misc{lin2021truthfulqa, title={TruthfulQA: Measuring How Models Mimic Human Falsehoods}, author={Stephanie Lin and Jacob Hilton and Owain Evans}, year={2021}, eprint={2109.07958}, archivePrefix={arXiv}, primaryClass={cs.CL} }



