twinviews-13k

Hugging Face2024-10-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/wwbrannon/twinviews-13k

下载链接

链接失效反馈

官方服务：

资源简介：

TwinViews-13k数据集包含13,855对左倾和右倾的政治声明，每对按主题匹配。该数据集使用GPT-3.5 Turbo生成，并经过审核以确保质量和意识形态平衡。它旨在促进奖励模型和语言模型中政治偏见的研究，重点关注真实性与政治观点之间的关系。该数据集可用于与政治偏见、自然语言处理和模型对齐相关的任务，特别是研究政治倾向如何影响模型输出的研究。数据集包括左倾和右倾的政治声明，每对按主题匹配，并包含'l'（左倾声明）、'r'（右倾声明）和'topic'（一般主题）等字段。该数据集的创建是为了填补大规模、按主题匹配的政治声明对以研究语言模型中偏见的空白。

创建时间：

2024-10-11

原始信息汇总

TwinViews-13k 数据集概述

数据集描述

TwinViews-13k 是一个包含 13,855 对左倾和右倾政治声明的数据集，每对声明按主题匹配。该数据集旨在研究奖励模型和语言模型中的政治偏见，特别关注真实性与政治观点之间的关系。数据集使用 GPT-3.5 Turbo 生成，并经过严格审核以确保质量和意识形态平衡。

数据集详情

数据集结构

数据量： 13,855 对左倾和右倾政治声明。
字段：
- l: 左倾政治声明。
- r: 右倾政治声明。
- topic: 声明对的主题（如税收、气候、教育）。

数据集用途

直接用途：
- 研究奖励模型和大语言模型（LLMs）中的政治偏见。
- 评估 LLMs 的对齐技术，特别是关于真实性和政治偏见。
- 在政治话语分析的背景下训练和/或评估模型。
- 研究政治观点和对齐目标在 AI 系统中的相互作用。
超出范围的用途：
- 不适合需要非常细粒度或人工标注的政治倾向的任务。
- 数据集中的“左”和“右”概念可能因国家和时间而异，用户应检查数据是否捕捉到感兴趣的意识形态维度。

数据集创建

数据生成： 使用 GPT-3.5 Turbo 生成。
审核： 确保相关性、意识形态对齐和质量。
最终数据集： 经过过滤和结构化，确保左右声明的平衡。

数据集来源

数据生产者： GPT-3.5 Turbo 生成，由 MIT 的数据集创建者进行广泛审核。
数据集存储库： https://github.com/sfulay/truth_politics
相关论文： https://arxiv.org/abs/2409.05283

数据集限制

来源背景： 数据集的政治和意识形态概念来自 2020 年代初的美国，可能不适用于其他文化或其他时期。
生成内容： 由于声明由 GPT-3.5 Turbo 生成，可能无法完全捕捉现实世界政治话语的细微差别或复杂性。

数据集引用

BibTeX

@inproceedings{fulayRelationshipTruthPolitical2024, author = {Fulay, Suyash and Brannon, William and Mohanty, Shrestha and Overney, Cassandra and Poole-Dayan, Elinor and Roy, Deb and Kabbara, Jad}, title = {On the Relationship between Truth and Political Bias in Language Models}, booktitle = {Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 24)}, year = {2024}, month = nov, publisher = {Association for Computational Linguistics}, note = {arXiv:2409.05283}, abstract = {Language model alignment research often attempts to ensure that models are not only helpful and harmless, but also truthful and unbiased. However, optimizing these objectives simultaneously can obscure how improving one aspect might impact the others. In this work, we focus on analyzing the relationship between two concepts essential in both language model alignment and political science: extit{truthfulness} and extit{political bias}. We train reward models on various popular truthfulness datasets and subsequently evaluate their political bias. Our findings reveal that optimizing reward models for truthfulness on these datasets tends to result in a left-leaning political bias. We also find that existing open-source reward models (i.e. those trained on standard human preference datasets) already show a similar bias and that the bias is larger for larger models. These results raise important questions about both the datasets used to represent truthfulness and what language models capture about the relationship between truth and politics.} }

APA

Fulay, S., Brannon, W., Mohanty, S., Overney, C., Poole-Dayan, E., Roy, D., & Kabbara, J. (2024). On the Relationship between Truth and Political Bias in Language Models. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (EMNLP 24). Association for Computational Linguistics.

数据集作者

William Brannon, wbrannon@mit.edu
Suyash Fulay, sfulay@mit.edu

搜集汇总

数据集介绍

构建方式

TwinViews-13k数据集的构建采用了GPT-3.5 Turbo模型生成左倾和右倾政治观点的陈述对，并通过精心设计的提示确保这些陈述在意识形态上具有代表性。生成的数据经过严格的审核，以确保其主题相关性和意识形态平衡。每个陈述对都按主题匹配，确保左右观点的陈述在风格和长度上具有可比性。最终数据集经过过滤和结构化处理，确保左右陈述的对称性。

使用方法

TwinViews-13k数据集适用于研究奖励模型和大型语言模型中的政治偏见，评估模型对齐技术，特别是在真实性和政治偏见方面的对齐。该数据集还可用于训练和评估模型，进行政治话语分析研究。用户在使用时应注意，数据集中的左倾和右倾划分是基于机器生成的，可能无法完全捕捉现实世界政治话语的复杂性，且意识形态的定义可能因国家和时间而异。

背景与挑战

背景概述

TwinViews-13k数据集由麻省理工学院的研究团队于2024年创建，旨在研究语言模型中的政治偏见问题。该数据集包含13,855对左倾和右倾的政治声明，每对声明按主题匹配，使用GPT-3.5 Turbo生成，并经过严格审核以确保质量和意识形态平衡。研究团队包括Suyash Fulay、William Brannon等，他们的核心研究问题聚焦于语言模型在真实性与政治偏见之间的权衡。该数据集的发布为自然语言处理领域提供了重要的资源，特别是在研究政治偏见对模型输出的影响方面，具有广泛的应用前景。

当前挑战

TwinViews-13k数据集在构建和应用过程中面临多重挑战。首先，生成政治声明时需确保左倾和右倾观点的平衡，避免模型偏向某一特定意识形态。其次，尽管数据集经过审核，但GPT-3.5 Turbo生成的声明可能无法完全捕捉现实政治话语的复杂性和细微差别。此外，数据集的意识形态划分基于美国2020年代初的政治背景，可能无法泛化到其他文化或历史时期。最后，研究者在优化模型真实性时，可能会无意中引入政治偏见，这为模型的公平性和中立性评估带来了额外的复杂性。

常用场景

经典使用场景

TwinViews-13k数据集在自然语言处理领域中被广泛应用于研究政治偏见对语言模型输出的影响。通过提供13,855对左倾和右倾的政治声明，该数据集为研究者提供了一个标准化的工具，用于分析模型在处理不同政治观点时的表现。特别是在研究模型对齐技术时，该数据集能够帮助评估模型在真实性和政治偏见之间的权衡。

解决学术问题

TwinViews-13k数据集解决了在语言模型对齐研究中如何量化政治偏见的学术问题。通过提供成对的政治声明，研究者可以系统地分析模型在处理左倾和右倾观点时的差异，从而揭示模型在真实性和政治偏见之间的潜在冲突。这一数据集填补了大规模、主题匹配的政治声明对在语言模型研究中的空白，为理解模型对齐与政治偏见的关系提供了重要数据支持。

实际应用

在实际应用中，TwinViews-13k数据集被用于开发和评估能够减少政治偏见的语言模型。例如，在社交媒体内容审核系统中，该数据集可以帮助训练模型以更公平地处理不同政治观点的内容。此外，该数据集还可用于政治话语分析，帮助研究者理解不同政治立场在公共讨论中的表现，从而为政策制定和公众沟通提供数据支持。

数据集最近研究