至长安数据集

Name: 至长安数据集
Creator: maas
Published: 2026-05-16 21:45:08
License: 暂无描述

魔搭社区2026-05-16 更新2024-05-15 收录

下载链接：

https://modelscope.cn/datasets/zhichangan/zhichanganDatabase

下载链接

链接失效反馈

官方服务：

资源简介：

## 数据集描述 ZhiChangAn数据集是集合了电力知识安全的问答性数据集。 ### 数据集简介本数据集涉及语言包含了关于电力行业的安全规定，典型违章，安全知识，作业风险等等相关数据信息。 ### 数据集支持的任务该数据集支持对多语言大模型（large language models, LLMs）进行监督微调学习（supervised fine-tuning, SFT）。 ## 数据集的格式和结构 ### 数据格式数据共分为1个文件，每个文件对应每个语言。 ### 数据集加载方式 ``` from modelscope.msdatasets import MsDataset ds = MsDataset.load('damo/nlp_polylm_multialpaca_sft', subset_name='ar', split='train') print(next(iter(ds))) # Note: subset_name参数设置参考上表中的Language-key ``` ### 数据分片此数据集用作训练集使用，未进行数据分片。 ## 数据集生成的相关信息 ### 原始数据原始数据通过迭代式self-instruct收集，通过构造对应语言提示指令（prompt）引导大模型自我生成SFT任务。原始数据收集后经过格式过滤和重复性过滤汇总为整个数据集。 ### 数据集标注该数据集未进行人工标注。 ## 数据集版权信息数据集已经开源，license为Apache License 2.0，如有违反相关条款，随时联系modelscope删除。 ## 引用方式无。 ## 其他相关信息本数据集可能会存在潜在风险，如事实性错误、偏见等。使用该数据集时请注意数据本身的潜在风险

# ZhiChangAn Dataset The ZhiChangAn dataset is a question-answering dataset focused on electrical power safety knowledge. ## Dataset Overview This dataset covers data related to safety regulations, typical violations, safety knowledge, operational risks and other aspects of the power industry. ## Supported Tasks This dataset supports supervised fine-tuning (SFT) for multilingual large language models (LLMs). ## Dataset Format and Structure ### Data Format The dataset consists of one file per language. ### Dataset Loading Method from modelscope.msdatasets import MsDataset ds = MsDataset.load('damo/nlp_polylm_multialpaca_sft', subset_name='ar', split='train') print(next(iter(ds))) # Note: The subset_name parameter should be set according to the Language-key listed in the table above. ### Data Splitting This dataset is used as the training set and has not been split into subsets. ## Dataset Generation Information ### Raw Data The raw data is collected through iterative self-instruct, where corresponding language prompt instructions are constructed to guide large language models to self-generate SFT tasks. After collection, the raw data is aggregated through format filtering and duplicate removal to form the complete dataset. ### Dataset Annotation No manual annotation was performed on this dataset. ## Copyright Information This dataset is open-sourced under the Apache License 2.0. Please contact ModelScope for removal if any clause is violated. ## Citation None. ## Additional Information This dataset may contain potential risks such as factual errors, biases, etc. Please pay attention to the potential risks of the dataset when using it.

提供机构：

maas

创建时间：

2023-08-07

搜集汇总

数据集介绍