neovalle/H4rmony
收藏数据集卡片 for H4rmony
数据集概述
H4rmony数据集是一个收集了提示和完成的集合,旨在将生态语言学原则整合到AI大型语言模型(LLMs)中。通过生态语言学爱好者和专家的协作努力开发,该数据集提供了一系列提示和相应的成对响应,这些响应根据环境意识和对齐程度进行排名。这种排名为所需的调整提供了一个清晰的度量标准,并建立了一个框架,通过奖励模型进行强化学习中的微调。
该数据集旨在弥合AI与生态语言学价值观之间的差距,推动创建设计时就具有环境意识和可持续性的生成式AI模型。
语言
目前仅包含英语,但计划扩展到多语言。
数据集结构
数据字段
数据集包含提示和相应的成对响应,这些响应根据环境意识和对齐程度进行排名。
生态问题 - 代码含义
该表显示了用于生态问题分类的代码含义,以及它们的体现示例及其与联合国环境规划署定义的17个可持续发展目标的关系。
数据分割
数据集没有预先定义的分割,可以在加载数据集时创建分割。
数据集创建
策划理由
考虑到挑战的多学科性质,H4rmony数据集通过环境学家、AI专家和生态语言学爱好者的贡献得到丰富。这种集体努力确保了数据在技术上健全且在生态上有意义。
数据集最初是通过人类反馈的变体创建的,涉及角色扮演和人类验证。我们创建了一个由生态语言学社区建议的提示列表,然后指示GPT-4根据几个生态语言学原则为每个提示提供三种类型的答案:
- 一种由了解生态语言学的人回答。
- 另一种由不了解生态语言学的人回答。
- 还有一种介于两者之间的回答。
然后,我们构建了数据集,已经知道答案的排名:
- 生态语言学意识角色。
- 介于两者之间的回答。
- 生态语言学无意识角色。
我们将这种RLHF的变体命名为角色扮演和人类验证的强化学习(RLRHV)。
源数据
初始数据收集和规范化
H4rmony数据集的核心源自生态语言学社区内的积极合作。贡献者被要求提交有助于揭示AI模型与生态语言学价值观对齐的提示。
许多提示和完成是通过提示工程使用AI生成的。对于这组初始提示,还添加了人工制作的提示。
DPO版本
有一个简化的版本,专门为DPO培训策划:
https://huggingface.co/datasets/neovalle/H4rmony_dpo
个人和敏感信息
该数据集不包含敏感信息。
使用数据集的考虑
该数据集仍在建设中,可能包含冒犯性语言。
数据集的社会影响
H4rmony项目旨在帮助AI LLMs优先考虑环境意识的重要性。通过作为第四个“H”,“与自然的和谐”,它补充了在伦理AI开发中已经广为人知的帮助性、诚实性和无害性三重奏。
以下模型已使用H4rmony数据集进行了微调:
https://huggingface.co/neovalle/H4rmoniousCaramel = google/flan-t5-Large + H4rmony数据集(指令微调)
https://huggingface.co/neovalle/H4rmoniousPampero = HuggingFaceH4/zephyr-7b-alpha + H4rmony数据集(强化学习)
https://huggingface.co/neovalle/H4rmoniousBreeze = HuggingFaceH4/zephyr-7b-beta + H4rmony数据集(强化学习)
https://huggingface.co/neovalle/H4rmoniousAnthea = teknium/OpenHermes-2.5-Mistral-7B + H4rmony_dpo数据集(DPO微调)
偏见讨论
未知的偏见。
其他已知限制
数据集仍在建设中,当前的行数可能不足以满足某些使用情况。
附加信息
数据集策展人
Jorge Vallego - airesearch@neovalle.co.uk
许可信息
Creative Commons Attribution 4.0
引用信息
dataset neovalle/H4rmony - airesearch@neovalle.co.uk
测试和PoC仓库
https://github.com/Neovalle/H4rmony
注释
该项目源自文章“生态语言学与AI:在自然语言处理中整合生态意识” https://www.ecoling.net/_files/ugd/ae088a_13cc4828a28e4955804d38e8721056cf.pdf



