Nan-Do/reason_code-search-net-python|代码理解数据集|自然语言处理数据集
收藏数据集概述
数据集名称
- 名称: Reasoning dataset for Python
- 别名: reason_code-search-net-python
数据集特征
- 特征名称: INSTRUCTION, RESPONSE, TYPE, SOURCE
- 数据类型:
- INSTRUCTION: string
- RESPONSE: string
- TYPE: int64
- SOURCE: string
数据集任务
- 任务类别: summarization, text-generation, conversational, text2text-generation
- 语言: English
数据集内容
- 描述: 该数据集用于Python的教学,包含五种不同类型的任务,涉及Python 3函数的解释和理解。
- 任务类型:
- Type 1: 生成函数功能的总结。
- Type 2: 生成输入参数的解释。
- Type 3: 生成返回值的解释。
- Type 4: 生成返回值类型的解释。
- Type 5: 生成输入参数类型的解释。
数据集分割
- 分割: 仅包含训练集
- 训练集大小: 429059个样本,总大小399930143字节
数据集创建
- 创建时间: 2023年5月
- 创建目的: 提高LLMs对Python 3的推理/理解能力
许可证
- 许可证类型: Apache 2.0
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
WorldClim
WorldClim是一个全球气候数据集,提供了全球范围内的气候数据,包括温度、降水、生物气候变量等。数据集的分辨率从30秒到10分钟不等,适用于各种尺度的气候分析和建模。
www.worldclim.org 收录
全国兴趣点(POI)数据
POI(Point of Interest),即兴趣点,一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息,分别为名称、类别、坐标、分类。其中,分类一般有一级分类和二级分类,每个分类都有相应的行业的代码和名称一一对应。 POI包含的信息及其衍生信息主要包含三个部分:
CnOpenData 收录
AAAR-1.0
AAAR-1.0数据集包含四个主要任务:方程推理、实验设计、论文弱点和评审评论。方程推理任务包含1049个样本,每个样本有四个字段:前文、后文、选项和答案。实验设计任务包含100篇论文,每篇论文包含文本数据和图像数据。论文弱点任务包含993篇论文,每篇论文包含文本数据和图像数据。评审评论任务的数据存储在另一个GitHub仓库中。
huggingface 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录