SciPhi/AgentSearch-V1
收藏Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SciPhi/AgentSearch-V1
下载链接
链接失效反馈官方服务:
资源简介:
AgentSearch-V1数据集包含超过10亿个嵌入,覆盖了5000多万个高质量文档和10亿多个段落,内容来源包括Arxiv、Wikipedia、Project Gutenberg等。该数据集通过过滤、清理和增强公开可用的本地数据集,旨在使人类最重要的知识公开可搜索并优化LLM。数据集的结构包括URL、标题、元数据、文本块、嵌入和数据集类型等信息。可以通过HuggingFace访问和流式传输该数据集。
AgentSearch-V1数据集包含超过10亿个嵌入,覆盖了5000多万个高质量文档和10亿多个段落,内容来源包括Arxiv、Wikipedia、Project Gutenberg等。该数据集通过过滤、清理和增强公开可用的本地数据集,旨在使人类最重要的知识公开可搜索并优化LLM。数据集的结构包括URL、标题、元数据、文本块、嵌入和数据集类型等信息。可以通过HuggingFace访问和流式传输该数据集。
提供机构:
SciPhi
原始信息汇总
数据集概述
名称: AgentSearch-V1
语言: 英语
大小: 1B<n<10B
任务类别: 文本生成
配置:
- 默认配置:
- 数据文件:
- 分割: 训练
- 路径: "**/*.parquet"
- 数据文件:
数据集内容
- 数据量: 包含超过5000万高质量文档和10亿以上文章段落。
- 内容来源: 包括Arxiv, Wikipedia, Project Gutenberg等,以及经过筛选的Creative Commons数据。
数据集结构
json { "url": ..., "title": ..., "metadata": {"url": "...", "timestamp": "...", "source": "...", "language": "..."}, "text_chunks": ..., "embeddings": ..., "dataset": "book" | "arxiv" | "wikipedia" | "stack-exchange" | "open-math" | "RedPajama-Data-V2" }
数据集创建
- 目的: 使人文领域最重要的知识可公开搜索,并优化大型语言模型。
- 方法: 通过过滤、清洗和增强本地公开数据集创建。
引用信息
@software{SciPhi2023AgentSearch, author = {SciPhi}, title = {AgentSearch [ΨΦ]: A Comprehensive Agent-First Framework and Dataset for Webscale Search}, year = {2023}, url = {https://github.com/SciPhi-AI/agent-search} }
源数据
- Wikimedia Downloads: 由Wikimedia Foundation提供。
- OpenWebMath: 由Keiran Paster等人提供。
- RedPajama: 由Together Computer提供。
许可证
- 请参考所使用数据子集的许可证。



