CriticalThinker
收藏Critical Thinking Synthetic Dataset 数据集概述
数据集简介
- 名称: Critical Thinking Synthetic Dataset
- 语言: 英语 (en)
- 用途: 用于增强和评估逻辑推理、分析思维和问题解决能力,特别适用于训练和微调大型语言模型 (LLMs)。
- 目标: 开发AI系统的批判性思维能力,模拟现实世界的决策挑战,训练模型处理结构化数据和多选推理任务。
数据集结构
- 格式: JSONL (JSON Lines)
- 特征:
context: 详细场景,需要逻辑推理、模式识别和推断。query: 聚焦的问题,要求对上下文进行分析评估。options: 四个多选答案,包括一个正确答案和三个干扰项。correct_option: 整数索引 (0–3),标识正确答案。
- 示例记录: json { "context": "A company reported a ransomware attack after an employee downloaded an attachment from an unknown sender. Logs show unusual outbound traffic from the employees machine to an external IP (192.168.1.10) and encrypted files were detected.", "query": "What is the most likely cause of the incident?", "options": [ "The employee opened a phishing email containing malware.", "The employee intentionally installed ransomware.", "The IT team misconfigured the firewall settings.", "A system update triggered the ransomware activation." ], "correct_option": 0 }
数据集统计
- 示例数量: 10,000 (可扩展)
- 训练集大小: 2,263,973 字节
- 训练集示例数量: 1,895
- 下载大小: 900,325 字节
- 数据集大小: 2,263,973 字节
应用领域
- 人工智能研究: 基准测试逻辑推理和分析决策能力,微调大型语言模型 (LLMs)。
- 网络安全培训: 开发AI系统进行威胁分析和事件调查,模拟数字取证和恶意软件检测场景。
- 教育工具: 培训系统用于批判性思维课程,评估学生和专业人士的逻辑推理技能。
- 决策支持系统: 构建AI驱动的工具用于复杂决策环境,协助涉及数据泄露、网络钓鱼和欺诈检测的调查。
数据集生成过程
- 生成工具: GPT-4
- 生成步骤:
- 科学提示工程,确保模式合规。
- 验证步骤,确保结构完整性。
- 人工参与的质量保证,随机样本进行手动审查。
使用方式
-
下载数据集: bash git clone https://huggingface.co/datasets/theeseus-ai/CriticalThinker cd CriticalThinker
-
在Python中加载数据集: python from datasets import load_dataset dataset = load_dataset(theeseus-ai/CriticalThinker) print(dataset[0])
-
模型微调示例: python from transformers import AutoModelForMultipleChoice, AutoTokenizer, Trainer, TrainingArguments
model = AutoModelForMultipleChoice.from_pretrained("bert-base-uncased") tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
Tokenize dataset and prepare for training
Add training scripts as per requirements
许可证
- 许可证类型: Apache 2.0 License
引用
bibtex @dataset{critical_thinking_synthetic, author = {Theeseus AI}, title = {Critical Thinking Synthetic Dataset}, year = {2024}, version = {1.0}, publisher = {HuggingFace Datasets}, url = {https://huggingface.co/datasets/theeseus-ai/CriticalThinker} }
联系方式
- 电子邮件: theeseus@protonmail.com
- LinkedIn: Theeseus




