corypaik/prost|物理推理数据集|自然语言处理数据集
收藏数据集概述
数据集名称
- 名称: PROST: Physical Reasoning about Objects Through Space and Time
数据集描述
- 描述: PROST是一个用于评估预训练语言模型理解和推理物理世界能力的探测数据集。它包含18,736个填空式多项选择题,来自14个手动筛选的模板,涵盖10个物理推理概念。
支持的任务和排行榜
- 任务: 多项选择问答
- 任务形式: 使用
context
和question
形成填空式问题,或使用context
和ex_question
作为多项选择问答。
语言
- 语言: 英语 (
en-US
)
数据集结构
- 数据实例: 每个实例包含选项A、B、C、D,上下文
context
,问题question
和ex_question
,问题组group
,正确选项标签label
,以及模板标识name
。 - 数据字段: 包括选项、上下文、问题、问题组、正确选项标签和模板标识。
- 数据分割: 数据集包含18,736个测试实例。
数据集创建
- 许可证: Apache 2.0
- 数据集创建理由: 设计用于避免模型以非预期方式成功,通过零样本测试和手动编写模板来评估模型对物理概念的理解和推理能力。
其他信息
- 许可证信息: 数据集根据Apache 2.0许可证发布。
- 引用信息: 提供了一个引用参考,用于学术引用。
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录