GenderAlign|性别偏见数据集|自然语言处理数据集
收藏GenderAlign: 用于减轻大型语言模型中性别偏见的对齐数据集
数据集描述
该数据集在论文 "GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models" 中进行了描述。如果您发现该数据集有用,请引用该论文。数据集格式非常简单——每个条目包含一对文本,一个“chosen”和一个“rejected”。
免责声明
数据集包含可能具有冒犯性或令人不安的内容。主题包括但不限于性别偏见、性别刻板印象、基于性别的暴力和其他可能令人不安的主题。请根据您的个人风险承受能力与数据集进行互动。该数据集旨在用于研究目的,特别是针对减少模型中性别偏见的研究。数据中表达的观点不代表作者的观点。

- 1GenderAlign: An Alignment Dataset for Mitigating Gender Bias in Large Language Models华南理工大学 · 2024年
GetData.IO - finance - Google Search
GetData.IO -
getdata.io 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
微博与抖音评论数据集
数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。
github 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录