prm800k|自然语言处理数据集|机器学习数据集
收藏数据集概述
数据集信息
配置 phase1
- 特征:
labeler
: 类型为string
timestamp
: 类型为string
generation
: 类型为null
is_quality_control_question
: 类型为bool
is_initial_screening_question
: 类型为bool
question
: 结构化特征problem
: 类型为string
ground_truth_answer
: 类型为string
label
: 结构化特征steps
: 列表completions
: 列表text
: 类型为string
rating
: 类型为int64
flagged
: 类型为bool
human_completion
: 结构化特征text
: 类型为string
rating
: 类型为null
source
: 类型为string
flagged
: 类型为bool
corrected_rating
: 类型为int64
chosen_completion
: 类型为int64
total_time
: 类型为int64
finish_reason
: 类型为string
- 分割:
train
: 字节数为 5185121,样本数为 949test
: 字节数为 532137,样本数为 106
- 下载大小: 1850110 字节
- 数据集大小: 5717258 字节
配置 phase2
- 特征:
labeler
: 类型为string
timestamp
: 类型为string
generation
: 类型为int64
is_quality_control_question
: 类型为bool
is_initial_screening_question
: 类型为bool
question
: 结构化特征problem
: 类型为string
ground_truth_solution
: 类型为string
ground_truth_answer
: 类型为string
pre_generated_steps
: 序列类型为string
pre_generated_answer
: 类型为string
pre_generated_verifier_score
: 类型为float64
label
: 结构化特征steps
: 列表completions
: 列表text
: 类型为string
rating
: 类型为int64
flagged
: 类型为bool
human_completion
: 类型为null
chosen_completion
: 类型为int64
total_time
: 类型为int64
finish_reason
: 类型为string
- 分割:
train
: 字节数为 344736273,样本数为 97782test
: 字节数为 9164167,样本数为 2762
- 下载大小: 132668705 字节
- 数据集大小: 353900440 字节
配置文件
- phase1:
train
:phase1/train-*
test
:phase1/test-*
- phase2:
train
:phase2/train-*
test
:phase2/test-*
语言
- 英语 (
en
)
数据集规模
- 10K < n < 100K

新能源光伏功率预测数据
采集数值天气预报数据、实时环境气象数据、光伏电站实时输出功率数据等信息,通过气象预测模型与功率预测算法,实现对光伏电站未来一段时间内气象数据及功率数据的预测。
安徽省数据知识产权登记平台 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Cultural Dimensions Dataset
该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。
geerthofstede.com 收录