five

DS_Critique_Bank

收藏
Hugging Face2024-08-08 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/allenai/DS_Critique_Bank
下载链接
链接失效反馈
官方服务:
资源简介:
DS Critique Bank是一个包含多项选择题、相关答案和解释的数据集,由“学生模型”提供,以及由“评论模型”提供的解释的“评论”。部分实例包含人工标注。学生模型包括`gpt-4-0613`、`gpt-3.5-turbo-0613`、`Llama-2-70b-Chat`和`Llama-2-7b-Chat`,而评论模型包括`gpt-4-0613`、`DS-13B`和`DS-7B`。数据集文件包含多个jsonl文件,每个实例包含唯一ID、问题ID、数据集来源、问题文本、正确答案标签、使用的学生模型、学生模型提示、学生模型选项、学生模型预测答案、答案准确性、学生模型解释、学生模型原始输出以及评论列表。评论包含评论模型、评论模型选项、评论文本和评论元素(主要缺陷、维度、一般反馈、具体反馈和解释评分)。部分实例还包含人工标注的解释评分和评论评分。
提供机构:
Allen Institute for AI
创建时间:
2024-08-08
原始信息汇总

DS Critique Bank 数据集概述

数据集描述

DS (Digital Socrates) Critique Bank 是一个包含多项选择题及其相关答案和解释的数据集,由“学生模型”提供,并由“批评模型”提供的解释批评。部分实例包含人工标注。详细信息请参考论文 arXiv:2311.09613

模型信息

  • 学生模型: gpt-4-0613, gpt-3.5-turbo-0613, Llama-2-70b-Chat, Llama-2-7b-Chat
  • 批评模型: gpt-4-0613, DS-13B, DS-7B(后两者是基于 Llama-2-Chat 模型微调的 Digital Socrates 模型)

数据文件

数据集包含以下文件:

  • DSCB-train-silver.jsonl: 3240 个实例,包含银标 GPT-4 批评
  • DSCB-train-crowd-anno.jsonl: 3240 个实例,包含人工标注的 GPT-4 批评
  • DSCB-train-expert.jsonl: 198 个实例,包含人工编辑的批评
  • DSCB-dev-crowd-anno.jsonl: 270 个实例,包含人工标注的 GPT-4、DS-13B 和 DS-7B 批评
  • DSCB-dev-non-anno.jsonl: 6330 个实例,包含 GPT-4、DS-13B 和 DS-7B 批评
  • DSCB-prompts.json: 用于查询学生模型解释和批评模型批评的提示

数据字段

jsonl 文件包含以下字段:

  • id: 实例的唯一 ID
  • qid: 原始数据集中的问题 ID
  • dataset: 问题来源的数据集
  • question: 问题的完整文本,包含答案选项
  • gold_answer: 问题的正确答案标签
  • student_model: 使用的学生模型
  • student_prompt: 用于学生模型的提示(具体提示见 DSCB-prompts.json
  • student_llm_options: 学生模型使用的选项(如温度)
  • student_answer: 学生模型预测的答案
  • student_accuracy: 答案是否正确(1 表示正确,0 表示不正确)
  • student_explanation: 学生模型提供的解释文本
  • student_raw_output: 学生模型的原始输出(解析为 student_answerstudent_explanation
  • critiques: 学生解释的批评列表,每个批评包含以下字段:
    • critique_model: 使用的批评模型
    • critique_llm_options: 批评模型使用的选项(如温度)
    • critique_text: 批评的完整文本
    • critique_elements: 批评的元素,包括 main_flaw, dimension, general_feedback, specific_feedback, explanation_score(0 到 5 的评分)

部分实例包含人工标注,包括解释级别的标注和每个批评的标注。解释级别的标注包含以下字段:

  • explanation_score: 工人分配的解释评分
  • dimensions: 工人识别的主要缺陷维度列表
  • worker: 每个工人的唯一 ID

每个批评可能包含以下字段:

  • critique_score: 工人对批评质量的评分(0-3 分)
  • worker: 每个工人的唯一 ID

示例

以下是 DSCB-train-crowd-anno.jsonl 分区的完整示例: json { "id": "ARCCH_Mercury_7218173$Llama-2-7b-chat$QA_reasoning_step1", "qid": "ARCCH_Mercury_7218173", "dataset": "ARC-Challenge", "question": "Which of these stars is most similar to the Sun? (A) the red giant star Arcturus (B) the white dwarf star Sirius B (C) the main sequence star Alpha Mensae (D) the blue supergiant star Rigel", "gold_answer": "C", "student_model": "Llama-2-7b-chat", "student_prompt": "QA_reasoning_step1", "student_llm_options": {"max_tokens": 512, "temperature": 0}, "student_answer": "A", "student_accuracy": 0, "student_explanation": "1) The Sun is a main sequence star, which means it is in the middle of its life cycle and is fusing hydrogen into helium in its core. 2) Arcturus and Alpha Mensae are also main sequence stars, meaning they are similar to the Sun in terms of their stage of evolution. 3) Sirius B is a white dwarf star, which means it has already exhausted its hydrogen fuel and has a much smaller core than the Sun. 4) Rigel is a blue supergiant star, which means it is in a very different stage of evolution than the Sun and is much larger and hotter.", "student_raw_output": " Sure, Id be happy to help! Heres the answer to the question:

Question: Which of these stars is most similar to the Sun?

Reasoning:

  1. The Sun is a main sequence star, which means it is in the middle of its life cycle and is fusing hydrogen into helium in its core.
  2. Arcturus and Alpha Mensae are also main sequence stars, meaning they are similar to the Sun in terms of their stage of evolution.
  3. Sirius B is a white dwarf star, which means it has already exhausted its hydrogen fuel and has a much smaller core than the Sun.
  4. Rigel is a blue supergiant star, which means it is in a very different stage of evolution than the Sun and is much larger and hotter.

Answer: (A) the red giant star Arcturus", "critiques": [ { "critique_model": "gpt-4-0613", "critique_llm_options": {"max_tokens": 512, "temperature": 0}, "critique_text": "The explanation states or suggests the following:

  • Main flaw (standalone statement): "Arcturus and Alpha Mensae are also main sequence stars, meaning they are similar to the Sun in terms of their stage of evolution."
  • Dimension: incorrect_information

Consider these points for revising the explanation:

  • General: Its important to verify your facts before making a conclusion. Not all main sequence stars are similar to the Sun, and not all stars are main sequence stars.
  • Specific: In this case, Arcturus is not a main sequence star, but a red giant. Therefore, it is not similar to the Sun in terms of its stage of evolution. The correct answer should be Alpha Mensae, which is a main sequence star like the Sun.

Explanation score: 2", "critique_elements": { "main_flaw": ""Arcturus and Alpha Mensae are also main sequence stars, meaning they are similar to the Sun in terms of their stage of evolution."", "dimension": "incorrect_information", "general_feedback": "Its important to verify your facts before making a conclusion. Not all main sequence stars are similar to the Sun, and not all stars are main sequence stars.", "specific_feedback": "In this case, Arcturus is not a main sequence star, but a red giant. Therefore, it is not similar to the Sun in terms of its stage of evolution. The correct answer should be Alpha Mensae, which is a main sequence star like the Sun.", "explanation_score": 2 }, "critique_annotations": [ {"critique_score": 2, "worker": "Worker000124"}, {"critique_score": 2, "worker": "Worker000111"}, {"critique_score": 3, "worker": "Worker000119"} ] } ], "explanation_annotations": [ { "explanation_score": 1, "dimensions": ["inconsistent_answer", "incorrect_reasoning", "lack_justification"], "worker": "Worker000124" }, { "explanation_score": 1, "dimensions": ["incomplete_reasoning", "incorrect_information", "incorrect_reasoning", "misunderstanding"], "worker": "Worker000111" }, { "explanation_score": 2, "dimensions": ["inconsistent_answer", "incorrect_information"], "worker": "Worker000119" } ] }

引用

@misc{gu2024digitalsocrates, title={Digital {Socrates}: Evaluating {LLMs} through Explanation Critiques}, author={Yuling Gu and Oyvind Tafjord and Peter Clark}, year={2024}, eprint={2311.09613}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
DS_Critique_Bank数据集的构建基于多轮对话模型生成的解释与批判。数据集通过多个学生模型(如gpt-4-0613、gpt-3.5-turbo-0613、Llama-2-70b-Chat等)生成多选问题的答案和解释,并由批判模型(如gpt-4-0613、DS-13B、DS-7B)对这些解释进行批判。部分实例还包含人工标注,确保了数据的多样性和质量。数据集的构建过程结合了自动化生成与人工干预,旨在提供高质量的解释与批判数据。
特点
DS_Critique_Bank数据集的特点在于其多层次的结构化数据。每个实例包含问题、正确答案、学生模型的解释、批判模型的批判以及人工标注的评分和维度分析。批判模型不仅提供了对解释的全面反馈,还通过评分系统量化了解释的质量。此外,数据集还包含了不同模型生成的解释与批判的对比,为研究模型解释能力提供了丰富的实验材料。
使用方法
DS_Critique_Bank数据集可用于评估和提升大语言模型的解释能力。研究人员可以通过分析学生模型的解释与批判模型的反馈,识别模型在解释生成中的常见缺陷。数据集中的多轮对话和批判数据还可用于训练和优化批判模型,提升其对解释的评估能力。此外,人工标注的数据为模型解释的评估提供了可靠的基准,可用于开发更精确的解释质量评估工具。
背景与挑战
背景概述
DS_Critique_Bank数据集由Allen Institute for AI的研究团队于2024年创建,旨在通过多选问题及其相关答案、解释以及批判性评论,评估大型语言模型(LLMs)的解释能力。该数据集的核心研究问题在于如何通过批判性反馈提升模型生成解释的准确性和逻辑性。数据集中的学生模型包括GPT-4、GPT-3.5、Llama-2-70b-Chat和Llama-2-7b-Chat,而批判模型则包括GPT-4和两个基于Llama-2-Chat微调的Digital Socrates模型(DS-13B和DS-7B)。该数据集为自然语言处理领域提供了新的评估工具,推动了模型解释能力的研究。
当前挑战
DS_Critique_Bank数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,如何准确评估和提升模型生成解释的质量是一个核心难题。尽管批判模型能够提供反馈,但其反馈的准确性和一致性仍需进一步验证,尤其是在面对复杂或模糊问题时。其次,在数据集构建过程中,如何确保人类注释的质量和一致性也是一个重要挑战。尽管数据集包含了大量人类注释,但不同注释者之间的评分标准可能存在差异,这可能导致数据集的整体质量受到影响。此外,如何平衡自动化生成与人工注释的比例,以确保数据集的多样性和代表性,也是构建过程中需要解决的问题。
常用场景
经典使用场景
DS_Critique_Bank数据集在自然语言处理领域中被广泛用于评估大型语言模型(LLMs)的解释能力。通过提供多选问题及其答案和解释,数据集允许研究者分析模型生成的解释质量,并进一步通过批判模型对这些解释进行评价。这种机制不仅帮助理解模型的推理过程,还为模型的改进提供了具体的方向。
衍生相关工作
基于DS_Critique_Bank数据集,研究者们开发了多种批判模型,如DS-13B和DS-7B,这些模型在Hugging Face平台上公开,供社区使用和进一步研究。此外,该数据集还启发了多项关于模型解释性和批判性评估的研究工作,推动了自然语言处理领域中对模型透明性和可解释性的深入探讨。
数据集最近研究
最新研究方向
DS_Critique_Bank数据集在自然语言处理领域的最新研究方向主要集中在通过批判性解释评估大型语言模型(LLMs)的表现。该数据集通过提供多选问题及其答案和解释,结合由批判模型生成的批判性反馈,为研究者提供了一个独特的视角来分析和改进LLMs的解释能力。当前的研究热点包括如何利用这些批判性反馈来优化模型的解释生成过程,以及如何通过人类标注和自动化批判的结合,进一步提升模型的准确性和解释的合理性。此外,该数据集还为研究LLMs在不同任务中的表现差异提供了丰富的数据支持,推动了模型解释性和透明度的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作