five

nopperl/sustainability-report-emissions-instruction-style

收藏
Hugging Face2024-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nopperl/sustainability-report-emissions-instruction-style
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从[sustainability-report-emissions]数据集转换而来,转换为指令风格的JSONL格式,用于直接供SFTTrainer和axolotl等工具使用。数据集的提示部分由指令和从可持续发展报告中提取的文本组成,输出部分则使用Mixtral-8x7B-v0.1模型生成,包含范围1、2和3的排放信息以及包含这些信息的页面ID。数据集的生成脚本位于GitHub仓库中,并提供了一个基于该数据集微调的模型示例。需要注意的是,提示部分未使用任何指令格式,建议根据基础模型的训练指令格式进行处理。此外,由于提示部分较长(平均约15000个标记),训练时需要大量内存。

该数据集是从[sustainability-report-emissions]数据集转换而来,转换为指令风格的JSONL格式,用于直接供SFTTrainer和axolotl等工具使用。数据集的提示部分由指令和从可持续发展报告中提取的文本组成,输出部分则使用Mixtral-8x7B-v0.1模型生成,包含范围1、2和3的排放信息以及包含这些信息的页面ID。数据集的生成脚本位于GitHub仓库中,并提供了一个基于该数据集微调的模型示例。需要注意的是,提示部分未使用任何指令格式,建议根据基础模型的训练指令格式进行处理。此外,由于提示部分较长(平均约15000个标记),训练时需要大量内存。
提供机构:
nopperl
原始信息汇总

数据集概述

基本信息

  • 许可证: pddl
  • 任务类别: 文本生成
  • 语言: 英语
  • 标签: 气候
  • 数据规模: 1K<n<10K

数据集描述

  • 格式: 转换为指令风格的JSONL格式,适用于SFTTraineraxolotl等工具。
  • 内容: 包含从可持续发展报告中提取的指令和文本。
  • 输出: 由Mixtral-8x7B-v0.1模型生成,输出为包含范围1、2和3排放量以及相关信息页ID的JSON字符串。

其他信息

  • 数据集生成脚本: 位于GitHub仓库
  • 示例微调模型: emissions-extraction-lora
  • 注意事项:
    • 提示不使用任何指令格式,建议根据基础模型训练的指令格式进行处理。
    • 提示较长(平均约15000个token),训练需要大量内存。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作