five

HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集

收藏
hugging_face2023-03-08 更新2024-03-04 收录
用户偏好分析
自然语言处理
下载链接:
https://hf-mirror.com/datasets/HuggingFaceH4/stack-exchange-preferences
下载链接
链接失效反馈
资源简介:
该数据集包含来自Stack Overflow数据集的问题和答案,专门用于偏好模型训练。数据集中的问题至少有两个答案,每个答案根据点赞数和提问者的接受情况获得分数。此数据集还可用于指令微调和语言模型训练。README文件中还提供了一个用于创建二值化数据集的脚本,这对于偏好模型预训练至关重要。数据集遵循cc-by-sa-4.0许可,具有特定的归属要求。
提供机构:
HuggingFaceH4
原始信息汇总

H4 Stack Exchange Preferences Dataset 概述

数据集描述

  • 数据集名称: H4 Stack Exchange Preferences Dataset
  • 数据集用途: 主要用于偏好模型训练,也可用于指令微调和语言模型训练。
  • 数据集内容: 包含从Stack Overflow数据转储中筛选出的问题及其至少两个答案,每个答案附有根据Anthropic论文定义的评分。
  • 评分机制: 评分计算公式为score = log2 (1 + upvotes) 四舍五入到最近的整数,如果答案被提问者接受则加1,如果upvotes为负则评分设为-1
  • 数据集大小: 下载大小为22.13 GB。
  • 数据集语言: 主要为英语。

使用指南

  • 数据预处理: 提供了一个脚本用于将数据集二值化,以便于偏好模型预训练。
  • 注意事项: 使用此数据集进行偏好模型预训练时,可能需要进一步过滤数据以匹配评分。

许可证信息

  • 许可证: CC-BY-SA-4.0
  • 使用要求: 使用时必须按照许可证要求进行适当的归属,包括显示内容来源、作者信息及直接链接至原始问题和作者个人资料页。

引用信息

@online{h4stackexchange, author = {Lambert, Nathan and Tunstall, Lewis and Rajani, Nazneen and Thrush, Tristan}, title = {HuggingFace H4 Stack Exchange Preference Dataset}, year = 2023, url = {https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences}, }

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

RealBlur Dataset

RealBlur Dataset是一个用于评估和训练去模糊算法的真实模糊图像数据集。该数据集包含两个子集:RealBlur-J(针对JPEG图像)和RealBlur-R(针对RAW图像)。每个子集包含200对模糊和清晰图像,这些图像来自不同的场景和光照条件。数据集的目的是帮助研究人员开发和测试能够有效处理真实世界中模糊图像的算法。

github.com 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

A00_13081a.jpg

Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7

DataONE 收录