HuggingFaceH4/stack-exchange-preferences|用户偏好分析数据集|自然语言处理数据集
收藏H4 Stack Exchange Preferences Dataset 概述
数据集描述
- 数据集名称: H4 Stack Exchange Preferences Dataset
- 数据集用途: 主要用于偏好模型训练,也可用于指令微调和语言模型训练。
- 数据集内容: 包含从Stack Overflow数据转储中筛选出的问题及其至少两个答案,每个答案附有根据Anthropic论文定义的评分。
- 评分机制: 评分计算公式为
score = log2 (1 + upvotes) 四舍五入到最近的整数,如果答案被提问者接受则加1,如果upvotes为负则评分设为-1。 - 数据集大小: 下载大小为22.13 GB。
- 数据集语言: 主要为英语。
使用指南
- 数据预处理: 提供了一个脚本用于将数据集二值化,以便于偏好模型预训练。
- 注意事项: 使用此数据集进行偏好模型预训练时,可能需要进一步过滤数据以匹配评分。
许可证信息
- 许可证: CC-BY-SA-4.0
- 使用要求: 使用时必须按照许可证要求进行适当的归属,包括显示内容来源、作者信息及直接链接至原始问题和作者个人资料页。
引用信息
@online{h4stackexchange, author = {Lambert, Nathan and Tunstall, Lewis and Rajani, Nazneen and Thrush, Tristan}, title = {HuggingFace H4 Stack Exchange Preference Dataset}, year = 2023, url = {https://huggingface.co/datasets/HuggingFaceH4/stack-exchange-preferences}, }

CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
SIMBAD Astronomical Database
SIMBAD astronomical database is the world reference database for the identification of astronomical objects and provides basic data, cross-identifications, bibliography and measurements for astronomical objects outside the solar system. Using VizieR, the catalogue service for the CDS reference collection of astronomical catalogues and tables published in academic journals and the Aladin interactive software sky atlas for access, visualization and analysis of astronomical images, surveys, catalogues, databases and related data. Simbad bibliographic survey began in 1950 for stars (at least bright stars) and in 1983 for all other objects (outside the solar system)
re3data.org 收录
双色球开奖号码数据集
双色球开奖号码数据集从2003001-2025011
魔搭社区 收录
The MaizeGDB
The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。
www.maizegdb.org 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
