AutoPureData
收藏AutoPureData
概述
AutoPureData 是一个用于自动收集和过滤不良网络数据以更新大型语言模型(LLM)知识的项目。该项目旨在通过AI和LLM自动过滤不需要的文本,以便自动更新LLM的知识。
过滤内容
- 不安全内容:包括有毒、威胁、侮辱、歧视、政治、自残、宗教、暴力、性、亵渎、调情、垃圾邮件、诈骗、误导等内容。
- 不可靠来源的内容:来自不安全网站和未被搜索引擎索引的域名。
- 个人详细信息:包括电话、地址、信用卡、社会安全号码、IP地址等。
- 攻击:包括对抗性攻击尝试(数据中毒)。
支持语言
目前仅支持英语,未来将根据贡献者情况添加更多语言。
快速开始
bash pip install -r requirements.txt cp .env.example .env
编辑 .env 文件并添加API密钥。运行 Data_flagging.ipynb 文件以收集和过滤最新网络数据。运行 Analytics_and_Filtering.ipynb 文件以手动纠正标记。过滤后的数据可用于LLM,如 Usage_with_LLMs.ipynb 文件所示。
贡献
欢迎贡献!请为任何错误报告或建议创建问题。请通过添加更多过滤器和提高代码效率来贡献代码。贡献步骤包括:给仓库加星、创建分支、进行更改并创建拉取请求。
研究论文
预印本研究论文可在 arXiv:2406.19271 获取。
引用
如需引用该论文,请按以下格式引用: bibtex @misc{vadlapati2024autopuredataautomatedfilteringweb, title={{AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning}}, author={Praneeth Vadlapati}, year={2024}, eprint={2406.19271}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.19271}, }
许可证
版权所有 (c) 2024 Praneeth Vadlapati。更多信息请参阅 LICENSE 文件。
免责声明
该代码不适用于生产环境。仅供教育和研究目的使用。作者不对任何误用或损害负责。使用风险自负。
致谢
- 数据集:HuggingFace FineWeb
- 不安全文本检测:Meta Llama Guard 2
- 使用LLM检测不需要的文本:Meta Llama 3 (8B)
- 分析页面:Gradio
- 向量数据库:Pinecone




