IndustryInstruction-Chinese

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/Mxode/IndustryInstruction-Chinese

下载链接

链接失效反馈

官方服务：

资源简介：

中文行业指令数据集，包含单轮对话和多轮对话两个子集，涵盖多个行业领域的对话数据。数据集经过提取和清洗，保留了中文对话部分，适用于文本生成等任务。

Chinese Industry Instruction Dataset consists of two subsets: single-turn dialogues and multi-turn dialogues, covering dialogue data from multiple industrial domains. The dataset has been extracted and cleaned, with the Chinese dialogue content retained, and is suitable for tasks such as text generation.

创建时间：

2025-04-22

原始信息汇总

中文行业指令数据集

数据集概述

来源：提取自BAAI/IndustryInstruction的中文部分
语言：中文(zh)
规模：100K<n<1M
许可证：CC-BY-SA-4.0
任务类别：文本生成(text-generation)

数据组成

包含两个子集：

单轮对话(single_turn)
多轮对话(multi_turn)

领域分布

领域	单轮对话数目	多轮对话数目
AeroSpace	72667	0
Artificial-Intelligence	43906	0
Automobiles	78036	0
Finance-Economics	40135	0
Health-Medicine	177152	105320
Hospitality-Catering	39261	0
Law-Justice	43485	0
Literature-Emotions	44841	0
Subject-Education	271402	73
Technology-Research	41751	0
Transportation	51505	0
Travel-Geography	37150	0

数据格式

单轮对话(single_turn)

json { "id": "12位nanoid", "prompt": "输入提示", "response": "输出回复", "subset": "行业名称", "source": "原数据集id", "deita_score": "DEITA分数", "rw_score": "reward偏好分数" }

多轮对话(multi_turn)

json { "id": "12位nanoid", "conversations": "多轮对话", "subset": "行业名称", "source": "原数据集id", "deita_score": "DEITA分数", "rw_score": "reward偏好分数" }

已知局限性

解答过程缺失：部分回答仅提供最终答案，缺乏推理过程
文本噪声：存在重复文本等噪声问题
事实错误：部分回答存在事实性错误

搜集汇总

数据集介绍

构建方式

中文行业指令数据集基于BAAI/IndustryInstruction原始数据集构建，通过精心筛选和清洗仅保留中文语料，确保数据质量。数据集采用模块化设计，划分为单轮对话和多轮对话两个独立子集，每个样本均标注行业领域标签并保留原始数据ID以便溯源。构建过程中运用DEITA评分和reward偏好分数双重评估机制，对样本质量进行量化筛选，同时保留了部分评分缺失样本以维持数据多样性。

使用方法

使用该数据集时，可根据研究需求选择单轮或多轮对话子集进行加载。通过HuggingFace数据集库可直接访问各行业细分数据，利用subset字段实现领域过滤。建议结合deita_score和rw_score进行数据采样优化，对于存在噪声的样本可参考已知局限性部分提供的清洗方法。该数据集特别适合用于专业领域对话系统训练、指令跟随模型微调等任务，多轮对话数据可用于长上下文建模研究。使用时应遵守CC-BY-SA-4.0许可协议。

背景与挑战

背景概述

中文行业指令数据集（IndustryInstruction-Chinese）是由BAAI（北京智源人工智能研究院）构建并发布的大规模专业领域对话数据集，专注于中文语境下的多行业知识问答与指令理解。该数据集源自BAAI/IndustryInstruction项目的子集，经过系统化清洗与重构，覆盖航空航天、人工智能、金融经济、医疗卫生等12个核心领域，包含超过50万条高质量对话样本。作为专业领域自然语言处理的重要资源，该数据集为行业知识问答系统、领域对话模型等研究提供了关键数据支撑，显著推动了中文垂直领域语言模型的发展进程。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域问题层面，专业术语的准确理解与生成、跨行业知识迁移、长文本连贯性保持等问题对模型性能提出严峻考验；数据构建层面，原始数据存在解答过程缺失、文本噪声干扰、事实性错误等固有缺陷，虽经清洗仍可能影响数据质量。多轮对话样本的稀疏分布（仅医疗卫生和教育领域存在）导致对话连贯性建模困难，而评分字段（DEITA分数和reward分数）的部分缺失进一步增加了数据筛选与利用的复杂度。

常用场景

经典使用场景

在自然语言处理领域，IndustryInstruction-Chinese数据集为研究者提供了丰富的行业特定对话数据，尤其在单轮和多轮对话生成任务中展现出重要价值。该数据集覆盖航空航天、人工智能、金融经济等12个专业领域，其多领域特性使得模型能够在特定行业语境下进行精准的语义理解和响应生成。医疗健康和教育学科领域的数据优势尤为突出，为垂直领域的对话系统开发提供了关键素材。

解决学术问题

该数据集有效解决了行业知识对话系统中数据稀缺的核心问题，特别是填补了中文专业领域指令数据的空白。通过提供带有DEITA和reward评分的优质语料，为对话质量评估、领域适应迁移学习等研究提供了基准数据。其细分的单轮/多轮对话结构，为研究对话连贯性、知识持续性等关键问题提供了实验基础，推动了对话系统领域评估体系的发展。

实际应用

在实际应用层面，该数据集支撑了智能客服、行业咨询助手等商业系统的开发。医疗健康领域的对话数据可训练在线问诊机器人，金融经济数据可用于投资顾问系统，而教育学科数据则适用于智能辅导应用。多轮对话子集特别适合需要上下文保持的场景，如法律咨询、技术故障排除等长流程服务。

数据集最近研究