CriticalThinking-Finetuning-Dataset|教育数据集|技能开发数据集
收藏CriticalThinking-Finetuning-Dataset
简介
本数据集旨在通过微调大语言模型来提升用户的批判性思维和推理能力。数据集包括结构化的问答环节、角色扮演场景和辩论,旨在引导用户进行分析、评估和构建有逻辑的论证。该数据集鼓励深度思考和反思性学习,特别适用于教育、辅导以及技能开发等领域的应用。
数据集内容
该数据集由各种对话示例组成,旨在激发批判性思维。它包括以下类型的交互:
- 问答环节:结构化的问答格式,引导用户进行逻辑思考,并鼓励对主题进行更深入的探索。
- 角色扮演场景:用户在假设情境中被分配不同角色,鼓励他们从多个角度评估问题。
- 辩论:数据集中包含辩论结构,用户可以为或反对给定的命题进行辩论,从而提升他们的推理技能。
示例结构
问答环节
json { "role": "user", "content": "抽象艺术如何挑战了传统的艺术观念?" }, { "role": "assistant", "content": "很好的问题!首先你能告诉我创新活动在日常生活中的一些例子吗?" }, { "role": "user", "content": "比如吸尘器的发明,使得大家不再需要手动扫地。" }, { "role": "assistant", "content": "非常好,就像吸尘器的发明改变了我们的生活方式一样,抽象艺术也改变了艺术的发展。抽象艺术与传统艺术有何不同,你觉得呢?" }
角色扮演场景
json [ "请和我开始批判性思维情景对话训练", "今天我们来进行一个批判性思维训练。想象一下,你身处一个城市规划委员会的会议中,讨论关于城市公共交通改革的提案。在场有几位虚拟角色:市长(主张全面引入无人驾驶公交)、环保倡导者李华(强调减少碳排放)、公交司机张师傅(担忧失业问题)、以及普通市民小红(关心出行便利性)。请选择一位角色扮演。" ], [ "我想扮演环保倡导者李华。", "很好,李华。现在,有一个观点是“无人驾驶公交能显著提高效率并减少交通拥堵”,你怎么看?" ], [ "作为李华,我完全同意这个观点。无人驾驶公交能按照最优化路线行驶,减少人为错误导致的延误,同时因为智能化调度,能更高效地分配车辆,缓解拥堵,进而减少汽车排放,符合我的环保主张。", "很好的分析,李华。接下来,我们深入一点。我注意到你在谈论中提到了“最优化路线”和“减少排放”。请具体解释一下这两个限定词对你立场的重要性。" ]
辩论示例
json [ "请和我开始一轮辩论。", "今天我们来进行一场辩论。辩题是:“网络课程应该成为主流教育形式。”正方认为网络课程提供了灵活性和可访问性,是未来教育的趋势。反方则认为网络课程无法提供足够的互动和实践机会,不应成为主流教育形式。你想 支持哪一方?" ], [ "我支持正方。", "很好,请开始你的第一轮发言。" ], [ "网络课程提供了很大的灵活性。学生可以根据自己的时间表自由安排学习,而且可以接触到世界各地最好的教育资源。", "灵活性确实是网络课程的优点之一。然而,网络学习的过度灵活性可能会导致学生缺乏自律,这不是一个问题吗?学生可能因为缺乏固定的学习结构而学习不足。" ]
文件结构
bash Critical-Thinking-Training-Dataset/ │ ├── data/ │ ├── Q&A.json # 包含结构化的问答环节 │ ├── situation.json # 包含角色扮演场景数据 │ ├── debate.json # 包含辩论数据,用于批判性思维练习 │ ├── README.md # 概述和使用说明 ├── LICENSE # 许可证信息 └── requirements.txt # 使用数据集所需的依赖项
许可证
此数据集在 MIT 许可证下发布。您可以出于任何目的自由使用、修改和分发它,只要您提供原作者的署名即可。

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
MID-Ship
MID-Ship是一个用于复杂海上船舶导航行为的数据集,由上海海事大学创建,旨在解决船舶目标检测中的遮挡和密集交互问题。该数据集包含5673张图像,总计135,884个精细标注的目标实例,涵盖多种海上场景,如不同天气条件下的船舶相遇、靠泊操作、小目标聚集和部分遮挡等。数据集通过高分辨率视频片段采集,覆盖43个不同的可航水域,并包含多种天气和光照条件,增强了数据集的多样性和实用性。MID-Ship主要应用于智能海上交通监控系统和自主船舶导航,旨在提高复杂环境下的船舶检测和跟踪能力,减少海上事故。
arXiv 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录