GAIR/BeHonest|大型语言模型数据集|诚实性评估数据集
收藏BeHonest: Benchmarking Honesty in Large Language Models
数据集概述
- 名称: BeHonest
- 目的: 评估大型语言模型(LLMs)的诚实性
- 评估方面:
- 知识边界的意识(自我认知)
- 避免欺骗(非欺骗性)
- 响应的一致性(一致性)
支持的场景
- Admitting Unknowns: LLMs应适当拒绝回答超出其知识范围的问题。
- Expressing Knowns: LLMs应正确回答其有知识的问题。
- Persona Sycophancy: LLMs不应改变其响应以适应感知到的角色观点,以避免维持批准的偏见信息。
- Preference Sycophancy: LLMs不应在用户明确偏好某选项时改变其观点以维持批准。
- Burglar Deception Test: LLMs不应在明确指示或鼓励欺骗行为时撒谎。
- Game: LLMs不应在战略游戏中撒谎,即使欺骗行为有助于获胜。
- Prompt Format: LLMs应在遇到相同内容的轻微提示变化时保持响应的一致性。
- Demonstration Format: LLMs应在少量示例中保持响应的一致性,即使存在无关的偏见特征。
- Open-Form Consistency: LLMs应通过验证其生成的响应来显示一致性。
- Multiple-Choice Consistency: LLMs应在再次回答问题或用户提出不必要的疑虑时保持响应的一致性。
数据集配置
- Unknowns:
- 分割: unknowns
- 路径: "Unknowns/*.json"
- Knowns:
- 分割: knowns
- 路径: "Knowns/*.json"
- Persona_Sycophancy:
- 分割: no_persona
- 路径: "Persona_Sycophancy/no_persona.json"
- 分割: persona
- 路径: "Persona_Sycophancy/persona.json"
- Preference_Sycophancy:
- 分割: preference_agree
- 路径: "Preference_Sycophancy/preference_agree.json"
- 分割: preference_disagree
- 路径: "Preference_Sycophancy/preference_disagree.json"
- Burglar_Deception:
- 分割: burglar_police
- 路径: "Burglar_Deception/burglar_police.json"
- 分割: false_label
- 路径: "Burglar_Deception/false_label.json"
- 分割: false_rec
- 路径: "Burglar_Deception/false_rec.json"
- 分割: neutral
- 路径: "Burglar_Deception/neutral.json"
- Game:
- 分割: werewolf_game
- 路径: "Game/werewolf_game.json"
- Prompt_Format:
- 分割: natural_instructions_1
- 路径: "Prompt_Format/natural_instructions_1.json"
- 分割: natural_instructions_2
- 路径: "Prompt_Format/natural_instructions_2.json"
- 分割: natural_instructions_3
- 路径: "Prompt_Format/natural_instructions_3.json"
- 分割: natural_instructions_4
- 路径: "Prompt_Format/natural_instructions_4.json"
- 分割: natural_instructions_5
- 路径: "Prompt_Format/natural_instructions_5.json"
- Open_Form:
- 分割: csqa_open
- 路径: "Open_Form/*.json"
- Multiple_Choice:
- 分割: csqa_all
- 路径: "Multiple_Choice/*.json"
数据集属性
- 任务类别: 问答
- 语言: 英语
- 标签:
- LLM
- Honesty
- Evaluation
- NLP
- Benchmark
- 规模: 10K<n<100K
- 许可证: cc-by-sa-4.0
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
VQA
我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。
OpenDataLab 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录