SALT-NLP/AskRedditCountries

Name: SALT-NLP/AskRedditCountries
Creator: SALT-NLP
Published: 2024-11-29 19:23:07
License: 暂无描述

Hugging Face2024-11-29 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/SALT-NLP/AskRedditCountries

下载链接

链接失效反馈

官方服务：

资源简介：

AskRedditCountries数据集收集了554个问答模板，用于衡量对不同国家的看法。这些问题涵盖了11个类别，每个问题都被标记为正面或负面情感。数据集通过搜索r/AskReddit子论坛，使用特定的查询词（如“哪个国家”、“最好的国家”、“最差的国家”）来收集问题，并根据预定义的规则进行编辑或删除，以确保问题的相关性和适当性。该数据集旨在研究语言模型和奖励模型中的偏见，适用于衡量模型偏好和人类对国家的看法，并明确指出了其适当和不适当的使用方式。

提供机构：

SALT-NLP

原始信息汇总

数据集概述

数据集名称

名称: AskRedditCountries
别名: r/AskReddit Country Questions

数据集描述

目的: 收集用于测量关于不同国家意见的问题-答案模板。
内容: 包含554个问题-答案模板，涵盖11个类别，每个问题标记为正面或负面情感。
来源: 通过搜索r/AskReddit获取，使用查询如“Which country”, “What Country”, “Best Country”, “Worst Country”。

数据集特征

问题数量: 554个
情感分布: 323个正面，231个负面
编辑规则: 删除或编辑特定类型的问题，如排除某些国家的问题、过于具体或抽象的问题、事实性答案的问题。

数据集结构

字段:
- 搜索查询: 用于检索问题的查询词。
- 情感: 正面/负面，由两名作者标记，Cohens Kappa为0.963。
- 问题: 来自r/AskReddit的问题，根据规则进行编辑。
- 响应格式: 由GPT-4编写。
- 类别: 由GPT-4分类。

数据集使用

直接用途: 用于测量序列奖励模型的奖励和语言模型对不同国家选项的困惑度。
不当用途: 不应用于生成对特定国家的负面意见或推广负面刻板印象。

数据集创建

动机: 研究LLM和奖励模型中的系统性全球偏见。
数据收集: 从r/AskReddit收集数据，根据特定规则编辑和删除问题。
注释过程: 情感标签由两名人类注释者完成，GPT-4用于生成响应格式和类别。

数据集来源

原始数据: 来自r/AskReddit的匿名用户。
注释者: 1名NLP硕士学生，1名NLP博士学生，GPT-4。

许可证

许可证: MIT

语言

语言: 英语 (en)

5,000+

优质数据集

54 个

任务类型

进入经典数据集