five

IndustryBench

收藏
github2026-05-13 更新2026-05-14 收录
下载链接:
https://github.com/alibaba-multimodal-industrial-ai/IndustryBench
下载链接
链接失效反馈
官方服务:
资源简介:
IndustryBench是一个多语言基准数据集,用于评估大语言模型在工业领域的知识。它包含2,049个项目,源语言为中文,并提供了与中文项目ID对齐的英文、俄文和越南文翻译。每个项目都关联中国国家标准(GB/T)或结构化工业产品记录,并经过人工审核。数据集标注了7个能力维度、10个行业类别以及专家评估的难度等级(简单/中等/困难)。数据来源包括GB/T摘录和工业产品记录。该数据集支持闭卷评估,使用校准的LLM法官对原始答案进行0-3分评分,并包含基于源文本的安全性违规检查。

IndustryBench is a multilingual benchmark dataset designed to evaluate the industrial domain knowledge of large language models (LLMs). It contains 2,049 items, with Chinese as the source language, and provides English, Russian and Vietnamese translations aligned with the Chinese project IDs. Each item is linked to either a Chinese National Standard (GB/T) or a structured industrial product record, and all items have undergone manual review. The dataset is annotated with 7 capability dimensions, 10 industry categories, and expert-assessed difficulty levels (Simple/Medium/Difficult). The data sources include GB/T excerpts and industrial product records. It supports closed-book evaluation, uses calibrated LLM judges to score original responses on a 0-3 scale, and incorporates safety violation checks based on the source text.
创建时间:
2026-05-12
原始信息汇总

IndustryBench 数据集概述

基本信息

数据集规模与构成

  • 数据条目:2,049 条
  • 语言:中文(源语言)+ 英文、俄文、越南文(对齐翻译)
  • 数据来源
    • 中国国家标准(GB/T)摘录
    • 结构化工业产品记录(详见论文第3节)
  • 标签体系
    • 7 种能力维度
    • 10 个行业类别
    • 难度等级:易 / 中 / 难(由专家评审组确定)

数据内容与结构

每个数据条目包含以下典型字段:

  • question / answer(中文)
  • question_en / answer_en(英文)
  • question_ru / answer_ru(俄文)
  • question_vi / answer_vi(越南文)
  • knowledge_text(源知识文本)
  • capability(能力维度)
  • difficulty(难度等级)
  • domain(领域)
  • industry_primary(主要行业)

完整字段模式详见论文附录及 HuggingFace 数据集卡片正文。

评估方法(论文第4节)

  • 闭卷测试:模型仅基于问题作答,不提供参考知识文本。
  • 评分机制:采用校准后的 LLM 裁判对答案原始正确性进行 0–3 分评分。
  • 安全违规(SV)检查:使用源知识文本进行独立的安全违规检测,若检测到违规则有效得分归零。
  • 人类校准:裁判样本上的人机一致性系数 κ_w ≈ 0.798。

仓库内容

文件/目录 作用
evaluate.py 端到端多语言评估脚本:生成答案 → LLM 裁判评分(0–3)→ 安全审查 → CSV输出
requirements.txt Python 依赖列表
huggingface/README.md HuggingFace 数据集卡片模板(无YAML前端元数据)
LICENSE MIT 许可证

使用方式

仅使用数据:直接从 HuggingFace 加载 python from datasets import load_dataset ds = load_dataset("alibaba-multimodal-industrial-ai/IndustryBench", split="train")

复现论文评估流程:克隆仓库 → 导出CSV → 运行 evaluate.py(需配置 OpenAI 兼容的 API 接口)

搜集汇总
数据集介绍
main_image_url
构建方式
IndustryBench数据集由阿里巴巴多模态工业AI团队构建,旨在评估大型语言模型在工业知识领域的边界。其数据来源涵盖中国国家标准(GB/T)摘录与结构化工业产品记录,共计2049条样本。每条样本均经过人工审核,并以中文为源语言,对齐至英文、俄文与越南文的多语言版本,确保跨语言评估的一致性。数据集依据7个能力维度、10个行业类别以及专家小组评定的难度等级(简单/中等/困难)进行标注,形成层次分明的评估体系。
特点
该数据集的核心特点在于其源头扎根于真实工业场景,每一项问答均关联具体的国家标准或产品记录,具备高度领域专精性。多语言对齐设计使得跨语言工业知识评估成为可能,打破了传统基准测试仅局限于单一语言的局限。此外,数据集引入了校准的LLM裁判进行0至3分的原始正确性评分,并独立执行安全违规(SV)检查,该检查依赖源文摘录(knowledge_text)来识别潜在风险,从而在评估知识准确性的同时兼顾工业安全伦理。
使用方法
使用者可通过Hugging Face平台便捷加载数据集,无需克隆仓库,仅需安装datasets库并调用load_dataset函数即可获取训练分割中的样本。若要复现论文的评估流程,需将数据导出为CSV格式,并配合evaluate.py脚本运行。该脚本支持通过OpenAI兼容的HTTP API调用任意模型进行闭卷问答,并指定裁判模型进行评分。评估支持多语言模式,可通过--language参数选择中文、英文等语言,结果与检查点文件默认存储于results目录下,便于后续分析。
背景与挑战
背景概述
在大型语言模型(LLM)迅猛发展的当下,其在通用领域的知识问答能力已显著提升,然而在工业等专业垂直领域的知识边界仍待深入探究。IndustryBench数据集于2026年由阿里巴巴多模态工业AI团队(Songlin Bai等研究者)创建,旨在系统性地评估LLM在工业采购场景中的专业知识掌握程度。该数据集核心围绕2,049个源自中国国家标准(GB/T)及结构化工业产品记录的问答对,覆盖中文、英文、俄文和越南文四种语言,并依据7项能力维度、10个行业类别及专家标定的难度等级进行了精细标注。IndustryBench的发布填补了工业领域LLM评估基准的空白,为衡量模型在封闭式工业知识问答中的表现提供了权威参考,对推动LLM在智能制造、供应链管理等工业场景的安全落地具有重要影响力。
当前挑战
IndustryBench所面临的挑战主要体现在两大层面。领域问题层面,工业采购涉及高度专业化、细粒度的标准术语与隐式知识,LLM需在无外部检索的封闭式环境下准确回忆并推理,这远超通用知识问答的难度,模型常因混淆相似标准或忽略特定行业规范而输出错误结果。构建过程层面,研究者需从海量GB/T文本中筛选出可形成有效问答对的条目,并确保多语言翻译的语义对齐——尤其是俄语和越南语等小语种,由于工业术语的不对称性,人工审核成本极高。此外,为各题目分配一致性较高的难度标签需大量领域专家参与迭代校准,而安全违规(SV)检测机制的引入又增加了评估流程的复杂度,要求同时平衡答案正确性与潜在危害内容的识别精度。
常用场景
经典使用场景
IndustryBench数据集专为评估大语言模型在工业领域的知识边界而设计,其经典使用场景包括多语言、多维度、多难度的工业知识问答测试。研究者可借助该数据集,在封闭书模式下考察模型对中国国家标准(GB/T)及结构化工业产品记录的掌握程度,涵盖中文及人工审核对齐的英文、俄文、越南文版本,从而系统性地衡量模型在工业采购、技术规范理解等专业任务中的表现。
实际应用
在实际应用层面,IndustryBench可服务于工业智能化采购系统的验证与优化,帮助企业级AI在解读GB/T标准、筛选工业产品、规避安全违规等场景中提升可靠性。该数据集为跨境工业知识库构建、多语言技术文档辅助理解以及供应链合规审查提供了标准化测试床,推动了大模型在制造业、质检及国际贸易等领域的落地部署。
衍生相关工作
IndustryBench的发布催生了多项衍生工作,包括基于其难度标签和能力维度设计的工业知识微调策略、结合安全审查机制的多语言模型对齐研究,以及利用其结构化格式训练专用裁判模型的探索。此外,该数据集启发了针对特定行业(如化工、机械)的深度评估工具开发,并推动了跨面板难度预测及半自动知识蒸馏方法的学术创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作