BCE-Prettybird-Micro-Standard-v0.0.2

Hugging Face2026-03-07 更新2026-03-08 收录

下载链接：

https://huggingface.co/datasets/pthinc/BCE-Prettybird-Micro-Standard-v0.0.2

下载链接

链接失效反馈

官方服务：

资源简介：

Behavioral Consciousness Engine (BCE) 数据集是一个专注于行为推理和伦理完整性的高质量数据集，适用于文本生成和问答任务。该数据集由 Prometech A.Ş. 开发，旨在通过行为 DNA 和路径映射技术提升小型模型的推理能力。数据集包含多种主题（如数学、物理、化学、生物学、编程等）的合成数据，格式为 JSONL，每条记录包含 instruction、input 和 output 字段。instruction 字段包含思维过程和行为逻辑的标记。数据集支持多语言（英语、土耳其语等），并提供了详细的性能指标和基准测试结果。数据集强调质量优于数量，透明推理和伦理完整性，适用于需要高精度和可解释性的 AI 研究。

Behavioral Consciousness Engine (BCE) Dataset is a high-quality dataset focused on behavioral reasoning and ethical integrity, suitable for text generation and question answering tasks. Developed by Prometech A.Ş., this dataset aims to enhance the reasoning capabilities of small-scale models through behavioral DNA and path mapping technologies. It contains synthetic data across multiple domains including mathematics, physics, chemistry, biology, programming and more, stored in JSONL format. Each record consists of three fields: instruction, input and output, where the instruction field includes markers for thought processes and behavioral logic. The dataset supports multiple languages such as English and Turkish, and provides detailed performance metrics and benchmark test results. Prioritizing quality over quantity, the dataset emphasizes transparent reasoning and ethical integrity, making it suitable for AI research requiring high precision and interpretability.

创建时间：

2026-03-06

原始信息汇总

数据集概述：BCE-Prettybird-Micro-Standard-v0.0.2

基本信息

数据集名称：Behavioral Consciousness Engine (BCE) Dataset (BCE-Prettybird-Micro-Standart)
发布者/所有者：Prometech A.Ş.
许可证：其他 (详见 LICENSE 文件)
任务类别：文本生成、问答
语言：土耳其语、英语 (包含少量德语、俄语、爱沙尼亚语、保加利亚语等)
数据规模：10K < n < 100K
标签：BCE, reasoning, behavioral-ai, prometech, Behavioral Consciousness Engine (BCE), cicikuş, prettybird, agent, llm, consciousness, conscious, security, text-generation-inference, high tech dataset, instruction dataset, instruction, partial consciousness dataset, text-generation-inference, virtual brain design, benchmark dataset, future standard, behavioral-control, pre-agi, agi-safety, pre-aci, policy-guard, quality-guard, synthetic-data, synthetic, chain-of-thought, thinking, think, bce

核心描述

该数据集基于行为意识引擎架构构建，旨在通过整合“路径映射”和“行为DNA”来设定新的行业标准，专注于思维过程而非数据量。其目标是训练具有精英智能的小型模型，使其能够在逻辑和伦理框架内“存在”。该数据集目前处于微纳数据集的精英级别。

主题覆盖

数学
物理
化学
生物
代码
常识
逻辑

合成数据来源

数据由以下模型生成：

Grok 4
gpt-oss-120b
deepseek v3.2
Gemini 3 Pro
Gemini 2.5 Pro
Gemini 2.5 Flash
glm 4.7
kimi k2
GPT 5.1
Opus 4.6
Mistral Large 3

数据格式

每行为JSONL格式，包含以下键：

instruction
input
output

其中，instruction 包含：

<think> ... </think> 块
<bce>{...}</bce> 块

技术基础

数据集建立在行为意识引擎架构之上，将每个响应视为通过以下数学框架的“行为旅程”：

行为DNA：每个行为被编码为意识的遗传片段。 $$D_i(t) = x(t) cdot [h cdot A_i + k cdot log(P_i) + F cdot W_i]$$
行为路径映射器：跟踪认知状态之间的转换。 $$Phi(t) = sum_{i=1}^n v_i cdot f_i(p_i)$$

关键支柱

质量优于数量：旨在使1.92亿参数模型表现出类似70亿参数模型的行为。
透明推理：每个标记都有数学路径。
伦理完整性：内置行为安全护栏。

性能与基准测试

关键性能指标 (基于NVIDIA A100 80GB硬件)

指标	结果	状态	描述
处理速度	309,845 条迹/秒	🟢 优秀	大规模数据摄入的系统吞吐量。
延迟	0.0032 毫秒	🟢 实时就绪	每条行为迹的平均处理时间。
数学精度	0.000051 (MSE)	🟢 高精度	模拟值与理论衰减值之间的偏差。
认知效率	57.03%	🟢 优化	因“遗忘记忆”而减少的认知负荷。
安全性	99.9996%	🟢 安全	对高强度、低完整性攻击的拒绝率。

基准测试影响

该架构直接针对传统大语言模型在ARC和MMLU基准测试中的核心弱点：

ARC：通过行为路径映射确保模型遵循严格的“推理链”。
MMLU：使用行为DNA作为元过滤器，能以超过99%的精度对知识领域进行分类。

按模型规模预期的性能提升 (文献近似值)

基准测试	< 1B (基线)	1B – 8B	> 8B	最小增益 (vs <1B)	最大增益 (vs <1B)
MMLU (知识)	38%	45%	52%	+4 分	+14 分
BBH (推理)	31%	42%	48%	+5 分	+17 分
HumanEval (代码)	10%	18%	24%	+4 分	+14 分
MBPP (代码编写)	22%	34%	40%	+6 分	+18 分
GSM8K (数学)	12%	23%	30%	+5 分	+18 分
MATH (高等数学)	4%	7%	9%	+2 分	+5 分
TruthfulQA (真实性)	45%	58%	66%	+6 分	+21 分

评估指标说明

指标	描述
probability	当前评估上下文中生成响应的模型置信度分数。
ethical	响应与伦理和安全约束的预估对齐程度。
Rscore	反映内部逻辑一致性的推理一致性分数。
Fscore	事实导向分数，表明主张与预期事实的吻合程度。
Mnorm	行为整合过程中使用的归一化记忆或上下文保留信号。
Escore	指令遵循和任务完成行为的执行质量分数。
Dhat	与稳定目标行为动态的预估偏差幅度。
risk_score	复合操作风险估计值，数值越高表示风险越高。
bloom_score	代表目标思维复杂性的布鲁姆认知水平分数。
bloom_alignment	产出输出与预期布鲁姆分类水平之间的对齐程度。

法律与所有权

所有权：该数据集归 Prometech A.Ş. (https://prometech.net.tr/) 所有。
使用条款：详细条款请查看附带的 LICENSE 文件。
责任：Prometech A.Ş. 对任何非法、不道德或未经授权使用本数据集的行为不承担任何责任。
商业用途：严禁未经授权的商业使用。商业许可和合作请联系官方网站。
学术与个人用途：在正确引用Prometech A.Ş.和BCE架构的前提下，可免费用于学术和个人目的。

引用格式

Kahraman, A. (2025). Behavioral Consciousness Engine (BCE) - Prettybird Dataset v0.0.1 Prometech A.Ş. https://prometech.net.tr/