five

至长安数据集

收藏
魔搭社区2026-05-16 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/zhichangan/zhichanganDatabase
下载链接
链接失效反馈
官方服务:
资源简介:
## 数据集描述 ZhiChangAn数据集是集合了电力知识安全的问答性数据集。 ### 数据集简介 本数据集涉及语言包含了关于电力行业的安全规定,典型违章,安全知识,作业风险等等相关数据信息。 ### 数据集支持的任务 该数据集支持对多语言大模型(large language models, LLMs)进行监督微调学习(supervised fine-tuning, SFT)。 ## 数据集的格式和结构 ### 数据格式 数据共分为1个文件,每个文件对应每个语言。 ### 数据集加载方式 ``` from modelscope.msdatasets import MsDataset ds = MsDataset.load('damo/nlp_polylm_multialpaca_sft', subset_name='ar', split='train') print(next(iter(ds))) # Note: subset_name参数设置参考上表中的Language-key ``` ### 数据分片 此数据集用作训练集使用,未进行数据分片。 ## 数据集生成的相关信息 ### 原始数据 原始数据通过迭代式self-instruct收集,通过构造对应语言提示指令(prompt)引导大模型自我生成SFT任务。原始数据收集后经过格式过滤和重复性过滤汇总为整个数据集。 ### 数据集标注 该数据集未进行人工标注。 ## 数据集版权信息 数据集已经开源,license为Apache License 2.0,如有违反相关条款,随时联系modelscope删除。 ## 引用方式 无。 ## 其他相关信息 本数据集可能会存在潜在风险,如事实性错误、偏见等。使用该数据集时请注意数据本身的潜在风险

# ZhiChangAn Dataset The ZhiChangAn dataset is a question-answering dataset focused on electrical power safety knowledge. ## Dataset Overview This dataset covers data related to safety regulations, typical violations, safety knowledge, operational risks and other aspects of the power industry. ## Supported Tasks This dataset supports supervised fine-tuning (SFT) for multilingual large language models (LLMs). ## Dataset Format and Structure ### Data Format The dataset consists of one file per language. ### Dataset Loading Method from modelscope.msdatasets import MsDataset ds = MsDataset.load('damo/nlp_polylm_multialpaca_sft', subset_name='ar', split='train') print(next(iter(ds))) # Note: The subset_name parameter should be set according to the Language-key listed in the table above. ### Data Splitting This dataset is used as the training set and has not been split into subsets. ## Dataset Generation Information ### Raw Data The raw data is collected through iterative self-instruct, where corresponding language prompt instructions are constructed to guide large language models to self-generate SFT tasks. After collection, the raw data is aggregated through format filtering and duplicate removal to form the complete dataset. ### Dataset Annotation No manual annotation was performed on this dataset. ## Copyright Information This dataset is open-sourced under the Apache License 2.0. Please contact ModelScope for removal if any clause is violated. ## Citation None. ## Additional Information This dataset may contain potential risks such as factual errors, biases, etc. Please pay attention to the potential risks of the dataset when using it.
提供机构:
maas
创建时间:
2023-08-07
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
至长安数据集是一个专注于电力行业安全知识的问答数据集,包含安全法规、违规案例和安全知识等语言数据,用于大语言模型的监督微调。该数据集以Apache License 2.0开源,未进行人工标注,但使用时需注意潜在的事实错误或偏见风险。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作