five

SciPhi/AgentSearch-V1

收藏
Hugging Face2024-01-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SciPhi/AgentSearch-V1
下载链接
链接失效反馈
官方服务:
资源简介:
AgentSearch-V1数据集包含超过10亿个嵌入,覆盖了5000多万个高质量文档和10亿多个段落,内容来源包括Arxiv、Wikipedia、Project Gutenberg等。该数据集通过过滤、清理和增强公开可用的本地数据集,旨在使人类最重要的知识公开可搜索并优化LLM。数据集的结构包括URL、标题、元数据、文本块、嵌入和数据集类型等信息。可以通过HuggingFace访问和流式传输该数据集。

AgentSearch-V1数据集包含超过10亿个嵌入,覆盖了5000多万个高质量文档和10亿多个段落,内容来源包括Arxiv、Wikipedia、Project Gutenberg等。该数据集通过过滤、清理和增强公开可用的本地数据集,旨在使人类最重要的知识公开可搜索并优化LLM。数据集的结构包括URL、标题、元数据、文本块、嵌入和数据集类型等信息。可以通过HuggingFace访问和流式传输该数据集。
提供机构:
SciPhi
原始信息汇总

数据集概述

名称: AgentSearch-V1

语言: 英语

大小: 1B<n<10B

任务类别: 文本生成

配置:

  • 默认配置:
    • 数据文件:
      • 分割: 训练
      • 路径: "**/*.parquet"

数据集内容

  • 数据量: 包含超过5000万高质量文档和10亿以上文章段落。
  • 内容来源: 包括Arxiv, Wikipedia, Project Gutenberg等,以及经过筛选的Creative Commons数据。

数据集结构

json { "url": ..., "title": ..., "metadata": {"url": "...", "timestamp": "...", "source": "...", "language": "..."}, "text_chunks": ..., "embeddings": ..., "dataset": "book" | "arxiv" | "wikipedia" | "stack-exchange" | "open-math" | "RedPajama-Data-V2" }

数据集创建

  • 目的: 使人文领域最重要的知识可公开搜索,并优化大型语言模型。
  • 方法: 通过过滤、清洗和增强本地公开数据集创建。

引用信息

@software{SciPhi2023AgentSearch, author = {SciPhi}, title = {AgentSearch [ΨΦ]: A Comprehensive Agent-First Framework and Dataset for Webscale Search}, year = {2023}, url = {https://github.com/SciPhi-AI/agent-search} }

源数据

  • Wikimedia Downloads: 由Wikimedia Foundation提供。
  • OpenWebMath: 由Keiran Paster等人提供。
  • RedPajama: 由Together Computer提供。

许可证

  • 请参考所使用数据子集的许可证。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作