HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集
收藏H4 Stack Exchange Preferences Dataset 概述
数据集描述
- 数据集名称: H4 Stack Exchange Preferences Dataset
- 数据集用途: 主要用于偏好模型训练,也可用于指令微调和语言模型训练。
- 数据集内容: 包含从Stack Overflow数据转储中筛选出的问题及其至少两个答案,每个答案附有根据Anthropic论文定义的评分。
- 评分机制: 评分计算公式为
score = log2 (1 + upvotes) 四舍五入到最近的整数,如果答案被提问者接受则加1,如果upvotes为负则评分设为-1
。 - 数据集大小: 下载大小为22.13 GB。
- 数据集语言: 主要为英语。
使用指南
- 数据预处理: 提供了一个脚本用于将数据集二值化,以便于偏好模型预训练。
- 注意事项: 使用此数据集进行偏好模型预训练时,可能需要进一步过滤数据以匹配评分。
许可证信息
- 许可证: CC-BY-SA-4.0
- 使用要求: 使用时必须按照许可证要求进行适当的归属,包括显示内容来源、作者信息及直接链接至原始问题和作者个人资料页。
引用信息
@online{h4stackexchange, author = {Lambert, Nathan and Tunstall, Lewis and Rajani, Nazneen and Thrush, Tristan}, title = {HuggingFace H4 Stack Exchange Preference Dataset}, year = 2023, url = {https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences}, }
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
RealBlur Dataset
RealBlur Dataset是一个用于评估和训练去模糊算法的真实模糊图像数据集。该数据集包含两个子集:RealBlur-J(针对JPEG图像)和RealBlur-R(针对RAW图像)。每个子集包含200对模糊和清晰图像,这些图像来自不同的场景和光照条件。数据集的目的是帮助研究人员开发和测试能够有效处理真实世界中模糊图像的算法。
github.com 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
A00_13081a.jpg
Link to OCHRE database: http://pi.lib.uchicago.edu/1001/org/ochre/a8598ac4-9093-d548-30f3-84ce2ec953a7
DataONE 收录