five

nopperl/sustainability-report-emissions-dpo

收藏
Hugging Face2024-02-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nopperl/sustainability-report-emissions-dpo
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从可持续发展报告中提取的文本,并转换为偏好风格的JSONL格式,用于DPO训练。数据集包含指令和从相关页面提取的文本,选择的输出是由Mixtral-8x7B-v0.1模型生成的JSON字符串,包含范围1、2和3的排放信息以及包含这些信息的页面ID。被拒绝的输出是随机生成的,风格与选择的输出相同。数据集生成脚本可以在GitHub仓库中找到。此外,还提到了一个基于此数据集微调的模型示例。

该数据集是从可持续发展报告中提取的文本,并转换为偏好风格的JSONL格式,用于DPO训练。数据集包含指令和从相关页面提取的文本,选择的输出是由Mixtral-8x7B-v0.1模型生成的JSON字符串,包含范围1、2和3的排放信息以及包含这些信息的页面ID。被拒绝的输出是随机生成的,风格与选择的输出相同。数据集生成脚本可以在GitHub仓库中找到。此外,还提到了一个基于此数据集微调的模型示例。
提供机构:
nopperl
原始信息汇总

数据集概述

基本信息

  • 许可证: pddl
  • 任务类别: 文本生成
  • 语言: 英语
  • 标签: 气候
  • 数据集大小: 1K<n<10K

数据集描述

  • 数据集名称: sustainability-report-emissions
  • 格式: 偏好风格 JSONL 格式,适用于 DPO 训练
  • 使用工具: 可直接用于 DPOTrainer、axolotl 等
  • 内容: 包含从可持续发展报告中提取的指令和文本,输出为 JSON 字符串,包含范围 1、2 和 3 的排放信息及包含这些信息的页面 ID
  • 模型: 使用 Mixtral-8x7B-v0.1 模型生成
  • 其他: 拒绝输出为随机生成,数据集生成脚本位于 GitHub 仓库

注意事项

  • 提示格式: 提示不使用任何指令格式,建议根据基础模型的训练指令格式进行处理
  • 内存需求: 由于提示较长(平均约 15000 个令牌),训练需要大量内存
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作