HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集

hugging_face2023-03-08 更新2024-03-04 收录

用户偏好分析

自然语言处理

下载链接：

https://hf-mirror.com/datasets/HuggingFaceH4/stack-exchange-preferences

下载链接

链接失效反馈

资源简介：

该数据集包含来自Stack Overflow数据集的问题和答案，专门用于偏好模型训练。数据集中的问题至少有两个答案，每个答案根据点赞数和提问者的接受情况获得分数。此数据集还可用于指令微调和语言模型训练。README文件中还提供了一个用于创建二值化数据集的脚本，这对于偏好模型预训练至关重要。数据集遵循cc-by-sa-4.0许可，具有特定的归属要求。

提供机构：

HuggingFaceH4

原始信息汇总

H4 Stack Exchange Preferences Dataset 概述

数据集描述

数据集名称: H4 Stack Exchange Preferences Dataset
数据集用途: 主要用于偏好模型训练，也可用于指令微调和语言模型训练。
数据集内容: 包含从Stack Overflow数据转储中筛选出的问题及其至少两个答案，每个答案附有根据Anthropic论文定义的评分。
评分机制: 评分计算公式为score = log2 (1 + upvotes) 四舍五入到最近的整数，如果答案被提问者接受则加1，如果upvotes为负则评分设为-1。
数据集大小: 下载大小为22.13 GB。
数据集语言: 主要为英语。

使用指南

数据预处理: 提供了一个脚本用于将数据集二值化，以便于偏好模型预训练。
注意事项: 使用此数据集进行偏好模型预训练时，可能需要进一步过滤数据以匹配评分。

许可证信息

许可证: CC-BY-SA-4.0
使用要求: 使用时必须按照许可证要求进行适当的归属，包括显示内容来源、作者信息及直接链接至原始问题和作者个人资料页。

引用信息

@online{h4stackexchange, author = {Lambert, Nathan and Tunstall, Lewis and Rajani, Nazneen and Thrush, Tristan}, title = {HuggingFace H4 Stack Exchange Preference Dataset}, year = 2023, url = {https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences}, }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

Apple Stock Price Data

Historical stock price data for AAPL (apple)

kaggle 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据，主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频，标注了人体关键点位置，适用于研究人体姿态识别和动作分析。

github.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

DAT

DAT是一个统一的跨场景跨领域基准，用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景，以评估算法的跨场景和跨领域泛化能力，并具有高保真度的现实机器人动力学建模。

github 收录