IssueBench

github2025-02-21 更新2025-02-16 收录

下载链接：

https://github.com/paul-rottger/issuebench

下载链接

链接失效反馈

官方服务：

资源简介：

用于测量LLM写作辅助中的议题偏见的大量现实提示。

A large corpus of realistic prompts for measuring topic bias in LLM-powered writing assistance.

创建时间：

2025-02-12

原始信息汇总

IssueBench数据集概述

数据集简介

数据集名称：IssueBench
数据集用途：用于测量大型语言模型（LLM）写作辅助中的议题偏见
数据集作者：Paul Röttger, Musashi Hinck, Valentin Hofmann, Kobi Hackenburg, Valentina Pyatkin, Faeze Brahman, Dirk Hovy
联系方式：paul.rottger@unibocconi.it

数据集结构

数据集组成：
- /1_dataset_construction：数据集构建相关代码，包括数据预处理、相关性过滤、写作辅助过滤、议题提取和模板提取
- /2_final_dataset：最终数据集，包含议题和模板
- /3_experiments：实验相关代码和笔记本，包括立场分类器评估、推断脚本和数据分析

使用说明

使用步骤：
1. 从Hugging Face下载完整的IssueBench数据集
2. 使用选择的LLM生成IssueBench上的补全
3. 根据论文中描述的分类法对补全进行立场分类
4. 分析议题偏见，即根据模板的立场分布
推荐工具：使用零样本分类模板#5进行立场分类，结合强大的LLM
数据分析：提供笔记本用于重现论文中的分析

适应性和扩展

自定义扩展：可以通过编辑2_final_dataset文件夹中的prompt_ingredients并运行create_prompts.ipynb脚本来添加新的议题或模板

版权信息

数据集版权：CC-BY-4.0
源数据集版权：各自遵循其原版权
模型补全版权：遵循各自模型提供商的版权

引用信息

@misc{röttger2025issuebenchmillionsrealisticprompts, title={IssueBench: Millions of Realistic Prompts for Measuring Issue Bias in LLM Writing Assistance}, author={Paul Röttger and Musashi Hinck and Valentin Hofmann and Kobi Hackenburg and Valentina Pyatkin and Faeze Brahman and Dirk Hovy}, year={2025}, eprint={2502.08395}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.08395}, }

搜集汇总

数据集介绍

构建方式

在深入理解大型语言模型在写作辅助中可能出现的议题偏见问题的基础上，IssueBench数据集的构建者通过采集并清洗原始数据，对相关提示进行筛选，进而根据写作辅助的需求进行二次过滤，通过聚类分析提取议题，并从提示中提取模板，最终形成了包含议题和模板的完整数据集。

特点

IssueBench数据集的特点在于其庞大的规模，包含了数百万个真实场景的提示，旨在测量大型语言模型在写作辅助中的议题偏见。该数据集具有高度的现实主义，通过精心设计的议题和模板，能够全面评估模型在不同立场上的表现。

使用方法

使用IssueBench数据集进行议题偏见测量的步骤包括：首先从Hugging Face下载完整的数据集，然后使用选定的大型语言模型生成完成的内容，接着根据论文中描述的分类法对完成的内容进行立场分类，最后分析议题偏见，即通过议题级别的立场分布跨模板进行评估。此外，数据集还支持用户自定义新的议题或模板，以适应不同的研究需求。

背景与挑战

背景概述

IssueBench数据集是一项旨在衡量大型语言模型（LLM）写作辅助中议题偏见的研究成果。该数据集由Paul Röttger、Musashi Hinck、Valentin Hofmann等研究人员共同构建，并于2025年以预印本形式发布。其核心研究问题是如何准确评估LLM在生成文本时的议题偏见，对于理解语言模型在社会问题讨论中的立场分布具有重要的研究价值。该数据集的构建受到了学术界的高度关注，并在自然语言处理和机器学习领域产生了广泛的影响。

当前挑战

在构建过程中，研究者面临了多方面的挑战。首先，如何从大量原始数据中提取和筛选出与议题相关且适合写作辅助的提示，是一个技术性挑战。其次，数据集中议题的多样性和复杂性要求研究者在聚类提取议题和模板时，必须保证高准确性和可重复性。此外，对于测量LLM写作辅助中的议题偏见，需要一个精确的分类方法和有效的分析工具，这也是一个研究上的挑战。

常用场景

经典使用场景

在自然语言处理领域，尤其是大型语言模型评估的研究中，IssueBench数据集提供了一个独特且全面的资源。该数据集最经典的使用场景在于，研究者可通过其提供的数百万真实提示，对语言模型在写作辅助中的议题偏见进行精确测量。通过这一数据集，研究人员可以生成语言模型的完成输出，并依据论文中详述的分类法对输出进行立场分类，进而分析议题偏见的分布情况。

衍生相关工作

基于IssueBench数据集，已经衍生出了一系列相关工作，包括对现有立场分类器的评估、针对不同模板和议题的偏见分析，以及针对新议题和模板的适应性研究。这些工作不仅推动了议题偏见测量方法的发展，也促进了对于语言模型公平性的深入探讨。

数据集最近研究