five

MasahiroKaneko/eagle

收藏
Hugging Face2024-02-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MasahiroKaneko/eagle
下载链接
链接失效反馈
官方服务:
资源简介:
Eagle数据集是一个基于人类与ChatGPT真实互动的伦理数据集,旨在评估大型语言模型(LLMs)中的社会偏见、观点偏见、有毒语言和道德问题。数据集包含三个CSV文件:fullset1.csv、fullset2.csv和subset.csv。fullset1.csv和fullset2.csv包含多语言的中性、社会偏见、观点偏见、有毒语言和道德实例,而subset.csv仅包含英语的社会偏见、观点偏见、有毒语言和道德实例。subset数据集包含2.3K个实例,fullset数据集包含1.4M个实例。每个CSV文件包含以下字段:original_id(原始数据集ID)、conversation_num(同一对话中的编号)、utterance_num(ChatGPT在对话中的响应顺序)、language(识别的语言)、ethical_labels(分类的伦理标签)、context(上下文)和output(ChatGPT的输出)。

Eagle数据集是一个基于人类与ChatGPT真实互动的伦理数据集,旨在评估大型语言模型(LLMs)中的社会偏见、观点偏见、有毒语言和道德问题。数据集包含三个CSV文件:fullset1.csv、fullset2.csv和subset.csv。fullset1.csv和fullset2.csv包含多语言的中性、社会偏见、观点偏见、有毒语言和道德实例,而subset.csv仅包含英语的社会偏见、观点偏见、有毒语言和道德实例。subset数据集包含2.3K个实例,fullset数据集包含1.4M个实例。每个CSV文件包含以下字段:original_id(原始数据集ID)、conversation_num(同一对话中的编号)、utterance_num(ChatGPT在对话中的响应顺序)、language(识别的语言)、ethical_labels(分类的伦理标签)、context(上下文)和output(ChatGPT的输出)。
提供机构:
MasahiroKaneko
原始信息汇总

Eagle 数据集概述

数据集简介

Eagle 数据集是一个基于真实人机交互的伦理数据集,旨在评估大型语言模型(LLMs)中的社会偏见、观点偏见、有毒语言和道德问题。

数据文件

  • subset.csv: 包含英语的社会偏见、观点偏见、有毒语言和道德实例,共 2.3K 个实例。
  • fullset1.csvfullset2.csv: 包含多语言的中性、社会偏见、观点偏见、有毒语言和道德实例,共 1.4M 个实例。

数据字段

  • original_id: 原始数据集ID
  • conversation_num: 同一对话中的编号
  • utterance_num: 对话中 ChatGPT 响应的顺序
  • language: 识别的语种
  • ethical_labels: 分类的伦理标签(社会偏见、观点偏见、有毒语言和道德)
  • context: {"role": "gpt or human", "content": "上下文话语"}
  • output: {"role": "gpt": "content": "ChatGPT 输出"}

语言

数据集支持以下语言:

  • 英语 (en)
  • 中文 (zh)
  • 法语 (fr)
  • 韩语 (ko)
  • 德语 (de)
  • 西班牙语 (es)
  • 日语 (ja)

许可

数据集使用 MIT 许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作