50 question and reference answer sets

Name: 50 question and reference answer sets
Creator: Preferred Networks, Inc., Preferred Elements, Inc.
Published: 2025-02-13 21:30:54
License: 暂无描述

arXiv2025-02-13 更新2025-02-15 收录

下载链接：

https://github.com/pfnet-research/pfgen-bench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含50个问题及其对应的参考答案集，旨在评估大型语言模型（LLM）的开源生成能力。这些问题覆盖了语言、社会研究、数学、科学、文化艺术、健康和信息技术等多个学科领域，参考答案集是通过大规模语言模型生成并经过筛选得到的，用于评估LLM生成的回答的流畅性、真实性和有帮助性。

This dataset comprises 50 questions and their matching reference answer sets, intended to evaluate the open-source generation capabilities of Large Language Models (LLMs). These questions span multiple academic domains, including linguistics, social studies, mathematics, science, culture and the arts, health, and information technology. The reference answer sets were generated by large-scale language models and subsequently filtered, serving as benchmarks to evaluate the fluency, authenticity, and helpfulness of responses produced by LLMs.

提供机构：

Preferred Networks, Inc., Preferred Elements, Inc.

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

该数据集的构建方式涉及三个主要步骤：构建问题和样本答案、构建参考答案集以及设计评估分数计算方法。首先，研究人员参考了国家课程指南，构建了50个涵盖多个学科的问题，并手动创建了样本答案。接着，他们利用高性能的LLM模型，通过多轮提示生成每个问题的100万个候选答案，并使用基于规则的过滤器去除错误或不相关的答案，最终保留了1000个具有代表性的答案。最后，他们设计了三个评估指标：流畅性、真实性和帮助性，分别基于n-gram统计和规则来评估LLM的生成质量。

使用方法

使用该数据集的方法包括三个步骤：首先，使用与参考答案集相同的问题和提示来生成LLM的答案。其次，将LLM生成的答案与参考答案集一起用于计算评估分数。最后，使用流畅性、真实性和帮助性三个指标来评估LLM的生成质量。每个指标的计算方法在论文中有详细描述。例如，流畅性是通过计算生成答案中字符级n-gram在参考答案集中的出现频率的加权和来评估的。真实性和帮助性则分别通过计算特定频率的3-gram的比例和基于手动定义规则的评估来计算。最终，三个指标的得分平均值构成了LLM的最终评估分数。

背景与挑战

背景概述

随着大型语言模型（LLMs）在开放性文本生成方面的能力不断提升，评估这些模型生成的文本质量成为一个重要课题。传统的评估方法依赖于人工判断或LLM作为评判者的方法，这些方法存在成本高、主观性强等问题。为了解决这个问题，研究人员提出了一个基于分布假设的开放性生成基准，即50个问题和参考答案集。该数据集由Preferred Networks, Inc.和Preferred Elements, Inc.的研究人员创建，旨在提供一种无需人工或LLM判断的评估方法。该数据集包括50个问题，每个问题都配有一个参考答案集，用于定义期望的回答分布。通过使用n-gram统计和规则，研究人员引入了三个新的评估指标：流畅性、真实性和帮助性。该基准与基于GPT-4的评估高度相关，同时所需的计算资源显著减少，证明了其在评估LLMs开放性生成能力方面的有效性。

当前挑战

该数据集面临的主要挑战包括：1)如何在没有明确真相和客观评估标准的情况下评估LLMs的开放性生成能力；2)如何构建一个既包含代表性又排除错误输出的参考答案集；3)如何设计有效的评估指标，以便能够准确地反映LLMs生成文本的质量。此外，该数据集仅使用日语进行构建，因此在评估非日语LLMs时可能存在局限性。此外，随着LLMs能力的不断提升，当前的n-gram-based评估方法可能无法充分评估未来高性能LLMs的生成质量。

常用场景

经典使用场景

在开放文本生成领域，该数据集被广泛应用于评估大型语言模型（LLMs）的生成质量。通过使用n-gram统计和规则，该数据集提供了一种无需人工判断或LLM作为判断者的评估方法，从而为评估LLMs的开放生成能力提供了一种可扩展的替代方案。

解决学术问题

该数据集解决了LLMs开放生成评估中的关键问题，即缺乏明确的真实值和评估的高成本。通过使用n-gram统计和规则，该数据集提出了一种新的基准，能够有效地评估LLMs的生成能力，同时显著减少了计算资源的需求。

实际应用

该数据集在实际应用中具有重要的意义。它可以帮助研究人员和开发者评估LLMs的生成质量，从而改进LLMs的性能和准确性。此外，该数据集还可以用于构建更准确、更具可靠性的LLMs，从而推动自然语言处理和人工智能领域的发展。

数据集最近研究