至长安数据集
收藏魔搭社区2026-05-16 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/zhichangan/zhichanganDatabase
下载链接
链接失效反馈官方服务:
资源简介:
## 数据集描述
ZhiChangAn数据集是集合了电力知识安全的问答性数据集。
### 数据集简介
本数据集涉及语言包含了关于电力行业的安全规定,典型违章,安全知识,作业风险等等相关数据信息。
### 数据集支持的任务
该数据集支持对多语言大模型(large language models, LLMs)进行监督微调学习(supervised fine-tuning, SFT)。
## 数据集的格式和结构
### 数据格式
数据共分为1个文件,每个文件对应每个语言。
### 数据集加载方式
```
from modelscope.msdatasets import MsDataset
ds = MsDataset.load('damo/nlp_polylm_multialpaca_sft', subset_name='ar', split='train')
print(next(iter(ds)))
# Note: subset_name参数设置参考上表中的Language-key
```
### 数据分片
此数据集用作训练集使用,未进行数据分片。
## 数据集生成的相关信息
### 原始数据
原始数据通过迭代式self-instruct收集,通过构造对应语言提示指令(prompt)引导大模型自我生成SFT任务。原始数据收集后经过格式过滤和重复性过滤汇总为整个数据集。
### 数据集标注
该数据集未进行人工标注。
## 数据集版权信息
数据集已经开源,license为Apache License 2.0,如有违反相关条款,随时联系modelscope删除。
## 引用方式
无。
## 其他相关信息
本数据集可能会存在潜在风险,如事实性错误、偏见等。使用该数据集时请注意数据本身的潜在风险
# ZhiChangAn Dataset
The ZhiChangAn dataset is a question-answering dataset focused on electrical power safety knowledge.
## Dataset Overview
This dataset covers data related to safety regulations, typical violations, safety knowledge, operational risks and other aspects of the power industry.
## Supported Tasks
This dataset supports supervised fine-tuning (SFT) for multilingual large language models (LLMs).
## Dataset Format and Structure
### Data Format
The dataset consists of one file per language.
### Dataset Loading Method
from modelscope.msdatasets import MsDataset
ds = MsDataset.load('damo/nlp_polylm_multialpaca_sft', subset_name='ar', split='train')
print(next(iter(ds)))
# Note: The subset_name parameter should be set according to the Language-key listed in the table above.
### Data Splitting
This dataset is used as the training set and has not been split into subsets.
## Dataset Generation Information
### Raw Data
The raw data is collected through iterative self-instruct, where corresponding language prompt instructions are constructed to guide large language models to self-generate SFT tasks. After collection, the raw data is aggregated through format filtering and duplicate removal to form the complete dataset.
### Dataset Annotation
No manual annotation was performed on this dataset.
## Copyright Information
This dataset is open-sourced under the Apache License 2.0. Please contact ModelScope for removal if any clause is violated.
## Citation
None.
## Additional Information
This dataset may contain potential risks such as factual errors, biases, etc. Please pay attention to the potential risks of the dataset when using it.
提供机构:
maas
创建时间:
2023-08-07
搜集汇总
数据集介绍

背景与挑战
背景概述
至长安数据集是一个专注于电力行业安全知识的问答数据集,包含安全法规、违规案例和安全知识等语言数据,用于大语言模型的监督微调。该数据集以Apache License 2.0开源,未进行人工标注,但使用时需注意潜在的事实错误或偏见风险。
以上内容由遇见数据集搜集并总结生成



