kocem_v2
收藏Hugging Face2025-08-22 更新2025-08-23 收录
下载链接:
https://huggingface.co/datasets/pikaybh/kocem_v2
下载链接
链接失效反馈官方服务:
资源简介:
kocem:kocem_v2数据集是一个包含建筑规划、建筑系统、综合理解、施工管理和领域推理等多个子类别的数据集。每个子类别都包含各种特征,如答案、答案键、日期、难度等。数据集还包括每个实例的评价、反馈、推理和分数信息。数据集被划分为开发、测试和验证集,具有不同的示例数量和字节大小。描述部分提供了数据集的概述,提到了实例的数量和包含的特征。数据集主要关注问答和多项选择任务,重点在于建筑规划和建筑系统。数据集根据CC-BY-NC-4.0许可发布,并提供韩语和英语两种语言。
创建时间:
2025-08-20
原始信息汇总
数据集概述
基本信息
- 名称: kocem_v2
- 语言: 韩语 (ko)、英语 (en)
- 许可证: CC BY-NC 4.0
- 规模: 10K < n < 100K
- 任务类别: 问答、多项选择
- 子数据集数量: 5个
子数据集详情
Architectural_Planning
- 实例数量: 505个
- 数据分割:
- dev: 3个实例
- test: 461个实例
- val: 41个实例
- 特征: 包含答案、答案键、日期、难度、英文答案、英文解释、英文选项、英文问题、评估、评估循环、考试、解释、领域、领域反馈、人类准确率、人类反馈、ID、图像、韩文答案、韩文解释、韩文选项、韩文问题、韩国国家技术认证、选项、问题、问题类型、子领域、学科等
- 主要标签: 建筑规划、建筑系统、组件列表分类、综合理解、建筑术语、施工管理、成本估算、领域知识、领域推理、图纸解读、立面图、错误检测/监督、设施规划、暖通空调、室内设计、机电工程、材料、给排水卫生、项目管理、质量控制、数量计算、安全工程、安全技术、安全培训、剖面图、标准命名、结构工程、结构平面图、多项选择
Building_System
- 实例数量: 421个
- 数据分割:
- dev: 5个实例
- test: 367个实例
- val: 49个实例
- 特征: 与Architectural_Planning相同
- 主要标签: 与Architectural_Planning相同
Comprehensive_Understanding
- 实例数量: 321个
- 数据分割:
- dev: 3个实例
- test: 161个实例
- val: 157个实例
- 特征: 与Architectural_Planning相同
- 主要标签: 与Architectural_Planning相同
Construction_Management
- 实例数量: 527个
- 数据分割:
- dev: 5个实例
- test: 488个实例
- val: 34个实例
- 特征: 与Architectural_Planning相同
- 主要标签: 与Architectural_Planning相同
Domain_Reasoning
- 特征: 包含答案、答案键、日期、难度、英文答案、英文解释、英文选项、英文问题、评估结构等(描述不完整)
搜集汇总
数据集介绍

构建方式
在建筑与工程知识评估领域,kocem_v2数据集源自韩国国家技术资格认证考试的多选题库,涵盖建筑规划、施工管理、结构工程等核心子领域。构建过程中采用双语平行处理机制,每个问题均配备韩语和英语的完整表述,包括问题陈述、选项、标准答案及解析。数据经过专家审核与难度分级,确保专业准确性与逻辑一致性,并通过人工反馈循环优化评估框架。
使用方法
研究者可通过加载标准数据分割(dev/test/val)进行多选题问答模型的训练与评估,支持跨语言迁移学习任务。利用内置的eval_loop结构可模拟渐进式推理过程,结合human_acc指标验证模型与人类表现的对齐度。图像字段需特殊解码处理,而双语对照字段适用于机器翻译与跨语言理解研究,领域标签体系可用于细粒度专业知识分类任务。
背景与挑战
背景概述
kocem_v2数据集作为建筑与工程领域的专业问答资源,聚焦于韩国国家技术资格认证考试的多学科知识体系。该数据集由专业机构基于实际认证考试内容构建,涵盖建筑规划、施工管理、结构工程等核心领域,通过韩英双语呈现多维度题目与解析。其创建旨在推动专业领域自然语言处理技术的发展,为跨语言领域知识推理与问答系统提供高质量的评估基准,对建筑信息化与人工智能交叉研究具有重要推动作用。
当前挑战
该数据集核心挑战在于解决建筑领域专业问答中复杂的多模态推理问题,需处理图文结合的工程图纸解析与专业术语理解。构建过程中面临领域知识标注的高门槛挑战,需要专业工程师参与验证;同时维持韩英双语平行语料的质量一致性存在困难,特别是在技术术语的精确翻译与文化适配方面。多选项逻辑结构的标准化与领域特有的推理模式建模也构成了显著的技术障碍。
常用场景
经典使用场景
在建筑与工程教育领域,kocem_v2数据集作为韩国国家技术资格认证考试的多选题资源,为机器学习模型提供了丰富的领域特定知识评估基准。该数据集通过韩英双语的问题-答案对,支持跨语言问答系统的训练与验证,特别是在建筑规划、施工管理等专业场景中,模型需要理解复杂的工程术语和图表信息才能准确作答。
解决学术问题
该数据集有效解决了专业领域知识推理中的多模态理解难题,为研究社区提供了评估模型在建筑工程领域专业认知能力的标准基准。通过包含人类准确率反馈和详细解析,它促进了领域适应性推理、跨语言知识迁移以及专业术语理解等核心学术问题的探索,推动了专业领域人工智能向更深层次的认知能力发展。
实际应用
在实际工程教育和技术认证场景中,kocem_v2可作为智能辅导系统的核心数据支撑,为学习者提供个性化的题目推荐和解析服务。建筑企业可利用该数据集训练内部专业知识问答系统,辅助员工进行技术培训和质量控制。多语言特性还使其能够服务于国际工程项目中的跨文化技术交流与培训需求。
数据集最近研究
最新研究方向
在建筑与工程知识推理领域,kocem_v2数据集正推动多语言专业问答系统的前沿研究。该数据集融合韩英双语的建设技术认证考题,涵盖建筑规划、施工管理、结构工程等专业领域,为跨语言领域知识推理提供了重要基准。当前研究聚焦于结合视觉-语言模型的多模态理解能力,提升对建筑图纸与技术规范的综合解析精度。随着全球建筑行业数字化进程加速,该数据集在智能监理系统、自动化合规检测等应用场景展现出显著价值,为构建专业领域大语言模型提供了关键训练资源。
以上内容由遇见数据集搜集并总结生成



