Public Dataset
收藏合成数据用于LLM去偏
概述
大型语言模型(LLMs)因其多种应用中的实用性而变得越来越普遍。然而,这些模型往往继承了训练数据中的偏见,导致伦理问题。本项目专注于为小型公司创建一种可行的方式,以在预算内训练LLMs的同时保持伦理标准,通过减少偏见。
问题描述
LLMs在庞大的数据集上训练时,倾向于学习和复制数据中嵌入的人类偏见。这种复制可能导致这些偏见的持续甚至放大,在其应用中导致不道德的结果。传统的去偏见方法涉及广泛的人工审查和基于人类反馈的强化学习(RLHF),这些方法资源密集且对小型公司来说往往不可行。
解决方案
我们的解决方案包括三个主要组成部分:
-
工具代码库:一个与高端LLMs的API交互的命令行界面(CLI)工具,用于生成合成数据。该工具允许用户指定提示并生成可贡献给公共数据集的数据。
-
公共数据集:一个由高端“安全输出”LLMs创建的开源合成数据集。该数据集将经过精心策划,以确保低偏见和高质量,促进更伦理模型的训练。
-
托管数据集的服务:一个基于云的服务,用于托管和管理合成数据集,使用户能够轻松访问和贡献。
影响分析
本地影响
在本地部署该项目,尤其是在像坦帕湾地区这样的科技中心,可以刺激数据科学和AI领域的就业创造。与南佛罗里达大学等学术机构的合作可以促进研究和开发,增强该地区的科技生态系统。
全球、经济和社会影响
在全球范围内,减少LLMs中的偏见与联合国的可持续发展目标相一致,特别是那些关注减少不平等和促进正义的目标。从经济角度看,该项目可以通过使伦理AI开发对更多市场参与者可访问来推动创新。在社会层面,更公平的AI系统可以在各种应用中,从招聘实践到服务访问,带来更公平的结果。
环境影响
尽管生成合成数据的环境足迹是一个由于能源消耗而关注的问题,但该项目可以探索可持续实践来缓解这一影响。使用能源效率高的技术和可再生能源可以帮助解决这些担忧。
时间表和资源
预算
- 令牌成本:生成合成数据会产生成本。例如,使用Google的Gemini每百万令牌21美元,我们可以用75,000美元生产大约35.7亿令牌,相当于约21.4GB的合成数据。
- 运营成本:资金还将涵盖初始开发和审核的工资,以及数据集的托管成本。
时间表
- 第1个月:开发和测试CLI工具,生成前10GB的合成数据,并对其偏见进行基准测试。
- 第2-6个月:生成剩余数据,发布工具和数据集,并通过社区贡献和审核支持项目。
结论
该项目旨在通过提供可访问的工具和资源来设定伦理AI开发的新标准,以减轻LLMs中的偏见。通过利用合成数据,我们可以帮助民主化创建更公平AI系统的能力,促进一个更加包容和公平的数字未来。




