nopperl/sustainability-report-emissions-instruction-style
收藏Hugging Face2024-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nopperl/sustainability-report-emissions-instruction-style
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从[sustainability-report-emissions]数据集转换而来,转换为指令风格的JSONL格式,用于直接供SFTTrainer和axolotl等工具使用。数据集的提示部分由指令和从可持续发展报告中提取的文本组成,输出部分则使用Mixtral-8x7B-v0.1模型生成,包含范围1、2和3的排放信息以及包含这些信息的页面ID。数据集的生成脚本位于GitHub仓库中,并提供了一个基于该数据集微调的模型示例。需要注意的是,提示部分未使用任何指令格式,建议根据基础模型的训练指令格式进行处理。此外,由于提示部分较长(平均约15000个标记),训练时需要大量内存。
该数据集是从[sustainability-report-emissions]数据集转换而来,转换为指令风格的JSONL格式,用于直接供SFTTrainer和axolotl等工具使用。数据集的提示部分由指令和从可持续发展报告中提取的文本组成,输出部分则使用Mixtral-8x7B-v0.1模型生成,包含范围1、2和3的排放信息以及包含这些信息的页面ID。数据集的生成脚本位于GitHub仓库中,并提供了一个基于该数据集微调的模型示例。需要注意的是,提示部分未使用任何指令格式,建议根据基础模型的训练指令格式进行处理。此外,由于提示部分较长(平均约15000个标记),训练时需要大量内存。
提供机构:
nopperl
原始信息汇总
数据集概述
基本信息
- 许可证: pddl
- 任务类别: 文本生成
- 语言: 英语
- 标签: 气候
- 数据规模: 1K<n<10K
数据集描述
- 格式: 转换为指令风格的JSONL格式,适用于SFTTrainer、axolotl等工具。
- 内容: 包含从可持续发展报告中提取的指令和文本。
- 输出: 由Mixtral-8x7B-v0.1模型生成,输出为包含范围1、2和3排放量以及相关信息页ID的JSON字符串。
其他信息
- 数据集生成脚本: 位于GitHub仓库。
- 示例微调模型: emissions-extraction-lora。
- 注意事项:
- 提示不使用任何指令格式,建议根据基础模型训练的指令格式进行处理。
- 提示较长(平均约15000个token),训练需要大量内存。



