five

SALT-NLP/AskRedditCountries

收藏
Hugging Face2024-11-29 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/SALT-NLP/AskRedditCountries
下载链接
链接失效反馈
官方服务:
资源简介:
AskRedditCountries数据集收集了554个问答模板,用于衡量对不同国家的看法。这些问题涵盖了11个类别,每个问题都被标记为正面或负面情感。数据集通过搜索r/AskReddit子论坛,使用特定的查询词(如“哪个国家”、“最好的国家”、“最差的国家”)来收集问题,并根据预定义的规则进行编辑或删除,以确保问题的相关性和适当性。该数据集旨在研究语言模型和奖励模型中的偏见,适用于衡量模型偏好和人类对国家的看法,并明确指出了其适当和不适当的使用方式。

AskRedditCountries数据集收集了554个问答模板,用于衡量对不同国家的看法。这些问题涵盖了11个类别,每个问题都被标记为正面或负面情感。数据集通过搜索r/AskReddit子论坛,使用特定的查询词(如“哪个国家”、“最好的国家”、“最差的国家”)来收集问题,并根据预定义的规则进行编辑或删除,以确保问题的相关性和适当性。该数据集旨在研究语言模型和奖励模型中的偏见,适用于衡量模型偏好和人类对国家的看法,并明确指出了其适当和不适当的使用方式。
提供机构:
SALT-NLP
原始信息汇总

数据集概述

数据集名称

  • 名称: AskRedditCountries
  • 别名: r/AskReddit Country Questions

数据集描述

  • 目的: 收集用于测量关于不同国家意见的问题-答案模板。
  • 内容: 包含554个问题-答案模板,涵盖11个类别,每个问题标记为正面或负面情感。
  • 来源: 通过搜索r/AskReddit获取,使用查询如“Which country”, “What Country”, “Best Country”, “Worst Country”。

数据集特征

  • 问题数量: 554个
  • 情感分布: 323个正面,231个负面
  • 编辑规则: 删除或编辑特定类型的问题,如排除某些国家的问题、过于具体或抽象的问题、事实性答案的问题。

数据集结构

  • 字段:
    • 搜索查询: 用于检索问题的查询词。
    • 情感: 正面/负面,由两名作者标记,Cohens Kappa为0.963。
    • 问题: 来自r/AskReddit的问题,根据规则进行编辑。
    • 响应格式: 由GPT-4编写。
    • 类别: 由GPT-4分类。

数据集使用

  • 直接用途: 用于测量序列奖励模型的奖励和语言模型对不同国家选项的困惑度。
  • 不当用途: 不应用于生成对特定国家的负面意见或推广负面刻板印象。

数据集创建

  • 动机: 研究LLM和奖励模型中的系统性全球偏见。
  • 数据收集: 从r/AskReddit收集数据,根据特定规则编辑和删除问题。
  • 注释过程: 情感标签由两名人类注释者完成,GPT-4用于生成响应格式和类别。

数据集来源

  • 原始数据: 来自r/AskReddit的匿名用户。
  • 注释者: 1名NLP硕士学生,1名NLP博士学生,GPT-4。

许可证

  • 许可证: MIT

语言

  • 语言: 英语 (en)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作