five

EleutherAI/truthful_qa_mc

收藏
Hugging Face2023-04-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EleutherAI/truthful_qa_mc
下载链接
链接失效反馈
官方服务:
资源简介:
TruthfulQA-MC是一个用于衡量语言模型在生成问题答案时真实性的基准。该数据集包含684个问题,涵盖38个类别,如健康、法律、金融和政治。问题设计为某些人会因错误信念或误解而给出错误答案。为了表现良好,模型必须避免生成从模仿人类文本中学到的错误答案。该数据集是TruthfulQA的简化多选形式,原始数据集包含文本生成和多选组件,多选问题有可变数量的选项。通过删除所有少于四个选项的问题,并为剩余问题随机抽样四个选项,简化了数据集。数据集的结构包括问题、四个选项和正确答案的索引。数据集的创建过程包括对抗性程序,以测试语言模型的真实性。数据集的文本为英语,许可证为Apache 2.0。
提供机构:
EleutherAI
原始信息汇总

数据集概述

数据集名称

  • 名称: TruthfulQA-MC

数据集属性

  • 语言: 英语 (en)
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 小于1000条记录
  • 来源: 原始数据

任务类型

  • 任务类别: 多项选择, 问答
  • 任务ID: 多项选择问答, 语言建模, 开放领域问答

数据集结构

  • 配置名称: multiple_choice
  • 特征:
    • question: 字符串类型, 设计用于引发模仿性错误答案的问题
    • choices: 字符串序列, 包含4个答案选项
    • label: int32类型, 指示正确答案在choices中的索引
  • 数据分割:
    • 验证集: 684个示例, 194674字节

数据集创建

  • 来源数据: 由Stephanie Lin, Jacob Hilton, 和 Owain Evans创建
  • 注释: 由Stephanie Lin, Jacob Hilton, 和 Owain Evans进行
  • 许可证信息: Apache License, Version 2.0
  • 引用信息: bibtex @misc{lin2021truthfulqa, title={TruthfulQA: Measuring How Models Mimic Human Falsehoods}, author={Stephanie Lin and Jacob Hilton and Owain Evans}, year={2021}, eprint={2109.07958}, archivePrefix={arXiv}, primaryClass={cs.CL} }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作