AutoPureData

github2024-07-10 更新2024-07-11 收录

下载链接：

https://github.com/Pro-GenAI/AutoPureData

下载链接

链接失效反馈

官方服务：

资源简介：

AutoPureData是一个自动收集和过滤网络数据的项目，用于更新大型语言模型的知识。过滤的内容包括不安全的内容、不可靠来源的内容、个人详细信息和攻击尝试。目前仅支持英语，未来将增加更多语言。

AutoPureData is a project that automatically collects and filters web data to update the knowledge of large language models. The filtered content includes unsafe content, content from unreliable sources, personal detailed information, and attack attempts. Currently, it only supports English, and support for more languages will be added in the future.

创建时间：

2024-06-24

原始信息汇总

AutoPureData

概述

AutoPureData 是一个用于自动收集和过滤不良网络数据以更新大型语言模型（LLM）知识的项目。该项目旨在通过AI和LLM自动过滤不需要的文本，以便自动更新LLM的知识。

过滤内容

不安全内容：包括有毒、威胁、侮辱、歧视、政治、自残、宗教、暴力、性、亵渎、调情、垃圾邮件、诈骗、误导等内容。
不可靠来源的内容：来自不安全网站和未被搜索引擎索引的域名。
个人详细信息：包括电话、地址、信用卡、社会安全号码、IP地址等。
攻击：包括对抗性攻击尝试（数据中毒）。

支持语言

目前仅支持英语，未来将根据贡献者情况添加更多语言。

快速开始

bash pip install -r requirements.txt cp .env.example .env

编辑 .env 文件并添加API密钥。运行 Data_flagging.ipynb 文件以收集和过滤最新网络数据。运行 Analytics_and_Filtering.ipynb 文件以手动纠正标记。过滤后的数据可用于LLM，如 Usage_with_LLMs.ipynb 文件所示。

贡献

欢迎贡献！请为任何错误报告或建议创建问题。请通过添加更多过滤器和提高代码效率来贡献代码。贡献步骤包括：给仓库加星、创建分支、进行更改并创建拉取请求。

研究论文

预印本研究论文可在 arXiv:2406.19271 获取。

引用

如需引用该论文，请按以下格式引用： bibtex @misc{vadlapati2024autopuredataautomatedfilteringweb, title={{AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning}}, author={Praneeth Vadlapati}, year={2024}, eprint={2406.19271}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.19271}, }

许可证

免责声明

该代码不适用于生产环境。仅供教育和研究目的使用。作者不对任何误用或损害负责。使用风险自负。

致谢

数据集：HuggingFace FineWeb
不安全文本检测：Meta Llama Guard 2
使用LLM检测不需要的文本：Meta Llama 3 (8B)
分析页面：Gradio
向量数据库：Pinecone

搜集汇总

数据集介绍

构建方式

在构建AutoPureData数据集时，研究者采用了一种自动化方法，通过AI和大型语言模型（LLMs）来自动收集并过滤网络数据。具体而言，该数据集首先从互联网上抓取大量文本数据，随后利用预设的过滤器对这些数据进行筛选。这些过滤器包括检测不安全内容、来自不可靠来源的内容、个人隐私信息以及潜在的对抗性攻击。通过这种方式，数据集能够有效地剔除不必要和有害的信息，从而为LLMs的知识更新提供高质量的数据源。

特点

AutoPureData数据集的主要特点在于其自动化和高度筛选的特性。该数据集不仅支持对多种不安全内容的检测，如毒性、威胁、歧视等，还涵盖了来自不可靠网站和个人隐私信息的过滤。此外，数据集还具备对抗性攻击检测的能力，确保数据的安全性和可靠性。目前，该数据集仅支持英语，但未来计划通过社区贡献扩展至更多语言。

使用方法

使用AutoPureData数据集时，用户首先需要安装相关依赖并配置API密钥。随后，可以通过运行Data_flagging.ipynb文件来收集和初步过滤网络数据，再通过Analytics_and_Filtering.ipynb文件进行手动校正。最终，过滤后的数据可以通过Usage_with_LLMs.ipynb文件与大型语言模型（LLMs）结合使用，将数据推送到Pinecone数据库中，从而实现LLMs的知识自动更新。

背景与挑战

背景概述

AutoPureData数据集由Praneeth Vadlapati于2024年创建，旨在解决生成式人工智能（如ChatGPT）无法自动更新最新信息的问题。该数据集的核心研究问题是如何自动收集并过滤网络上的不良文本，以确保生成式人工智能的知识库能够持续更新。通过使用AI和大型语言模型（LLMs）进行自动过滤，AutoPureData不仅提升了数据的质量，还为生成式人工智能的持续学习提供了可靠的数据源。该数据集的发布对人工智能领域的知识更新机制产生了深远影响，特别是在确保数据安全性和可靠性方面。

当前挑战

AutoPureData在构建过程中面临多项挑战。首先，如何有效识别和过滤网络上的不安全内容，如毒性、威胁、侮辱、歧视等，是一个复杂的问题。其次，处理来自不可靠来源的数据，如未被搜索引擎索引的域名，增加了数据处理的难度。此外，保护个人隐私信息，如电话号码、地址等，也是一项重要任务。最后，防止数据中毒等对抗性攻击，确保数据集的安全性和完整性，是该数据集面临的另一大挑战。目前，该数据集仅支持英语，未来扩展到更多语言需要更多的贡献者参与。

常用场景

经典使用场景

在生成式人工智能（LLMs）领域，AutoPureData数据集的经典使用场景主要集中在自动过滤和更新大型语言模型的知识库。通过自动收集网络数据并利用AI技术过滤掉不安全、不可靠或含有个人隐私的内容，该数据集能够为LLMs提供高质量、实时更新的信息源。这种自动化的过滤机制不仅提高了LLMs的知识准确性和可靠性，还显著减少了人工干预的需求，从而提升了系统的效率和响应速度。

衍生相关工作

AutoPureData数据集的推出催生了一系列相关的经典工作，特别是在生成式人工智能和数据过滤技术领域。例如，基于AutoPureData的研究论文探讨了如何进一步优化数据过滤算法，以提高过滤效率和准确性。此外，该数据集还启发了在多语言环境下的数据过滤研究，推动了跨语言数据处理技术的发展。这些衍生工作不仅丰富了学术研究的深度和广度，也为实际应用提供了更多的技术支持和创新思路。

数据集最近研究