RuozhiBench

Name: RuozhiBench
Creator: LibrAI, MBZUAI, The University of Melbourne
Published: 2025-02-19 02:47:11
License: 暂无描述

arXiv2025-02-19 更新2025-02-20 收录

下载链接：

https://github.com/LibrAIResearch/ruozhibench

下载链接

链接失效反馈

官方服务：

资源简介：

RuozhiBench是一个由LibrAI创建的双语数据集，包含677个经过精心策划的问题，这些问题包含各种形式的欺骗性推理。数据集通过严格的数据过滤、预处理和标注流程，将问题分类为六个不同的类型，旨在评估模型识别和推理欺骗性输入和逻辑谬误的能力。

RuozhiBench is a bilingual dataset created by LibrAI, containing 677 carefully curated questions covering various forms of deceptive reasoning. Through strict data filtering, preprocessing and annotation workflows, the dataset classifies these questions into six distinct categories, aiming to evaluate models' ability to identify and reason about deceptive inputs and logical fallacies.

提供机构：

LibrAI, MBZUAI, The University of Melbourne

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

RuozhiBench数据集的构建过程经历了严格的数据筛选、预处理和标注。首先，从中国论坛Ruozhiba中收集了8万多个条目，经过三次人文背景的标注人员的筛选，去除了文化依赖性强或潜在负面影响的条目，最终保留了677个问题。这些问题被仔细地审查并翻译成英文，同时保持其欺骗性质。为了进一步确保数据质量，研究人员采用了多步骤的标注过程，包括人工验证和自动化检查，只有符合清晰度、难度和语言适应性的严格标准的问题才被纳入数据集。

使用方法

使用RuozhiBench数据集的方法包括两种评价格式：生成式评价和多项选择评价。在生成式评价中，模型被要求对每个问题生成回答，然后由三个独立的模型作为评价者进行评估。在多项选择评价中，每个问题都提供了两个选项，一个“好”的答案和一个“坏”的答案，模型需要选择更好的答案。这种二元格式将评价过程从开放式的生成转化为简单的决策，从而提高了评价的标准化程度和计算效率。

背景与挑战

背景概述

近年来，大型语言模型（LLMs）在回答需要复杂推理的问题方面取得了显著进展。然而，它们识别和回应包含逻辑谬误或故意误导性前提的文本的能力仍然研究不足。为了解决这一差距，我们引入了RuozhiBench，这是一个包含677个精心策划的问题的双语数据集，这些问题包含各种形式的欺骗性推理，并通过大量的人工努力和专家审查精心制作而成。通过对17个LLMs的全面评估，这些LLMs来自5个系列，在RuozhiBench上使用开放式和二选一格式进行评估，我们进行了广泛的评估协议和结果模式分析。尽管这些模型在传统基准测试中得分很高，但它们在检测和正确推理逻辑谬误方面的能力有限，即使是表现最好的模型Claude-3-haiku，其准确率也只有62%，而人类的准确率超过90%。

当前挑战

RuozhiBench数据集面临的挑战包括：1) 所解决的领域问题的挑战：当前模型在面对欺骗性输入和逻辑谬误时，往往无法识别并提供准确的推理。2) 构建过程中所遇到的挑战：数据集中包含各种形式的欺骗性推理，需要通过广泛的人工努力和专家审查来确保数据质量。此外，由于评估模型性能的标准和方法存在差异，导致评估结果的不一致性。

常用场景

经典使用场景

RuozhiBench数据集被广泛用于评估大型语言模型（LLMs）在处理含有逻辑谬误和误导性前提的文本时的表现。该数据集包含677个经过精心筛选的问题，这些问题都包含各种形式的欺骗性推理。通过使用开放性和选择题格式，研究者可以全面评估LLMs在识别和推理逻辑谬误方面的能力。例如，研究者可以使用RuozhiBench数据集来评估LLMs在处理逻辑错误、常识误解、错误假设、科学误解、荒诞想象和其他类型的欺骗性问题时的表现。

解决学术问题

RuozhiBench数据集解决了当前评估LLMs在处理逻辑谬误和误导性前提的文本时的能力不足的问题。尽管LLMs在传统基准测试中表现出色，但它们在识别和推理逻辑谬误方面的能力仍然有限。RuozhiBench数据集为研究者提供了一个新的评估框架，可以帮助他们更好地理解LLMs在处理欺骗性输入时的局限性，并为LLMs的未来研究和开发提供新的方向。该数据集的意义和影响在于，它揭示了LLMs在处理逻辑谬误和误导性前提的文本时的局限性，并为LLMs的未来研究和开发提供了新的方向。

实际应用

RuozhiBench数据集在实际应用场景中可用于开发能够更好地识别和推理逻辑谬误和误导性前提的文本的LLMs。这些LLMs可以用于各种场景，例如：1. 评估和改进LLMs在处理欺骗性输入时的能力；2. 开发能够更好地识别和推理逻辑谬误和误导性前提的文本的LLMs；3. 用于教育和培训，帮助人们更好地理解逻辑谬误和误导性前提的文本。例如，LLMs可以用于开发智能助手，这些助手可以帮助用户识别和避免欺骗性输入，并提供更准确的答案。

数据集最近研究