SciPhi/AgentSearch-V1

Name: SciPhi/AgentSearch-V1
Creator: SciPhi
Published: 2024-01-14 03:54:39
License: 暂无描述

Hugging Face2024-01-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SciPhi/AgentSearch-V1

下载链接

链接失效反馈

官方服务：

资源简介：

AgentSearch-V1数据集包含超过10亿个嵌入，覆盖了5000多万个高质量文档和10亿多个段落，内容来源包括Arxiv、Wikipedia、Project Gutenberg等。该数据集通过过滤、清理和增强公开可用的本地数据集，旨在使人类最重要的知识公开可搜索并优化LLM。数据集的结构包括URL、标题、元数据、文本块、嵌入和数据集类型等信息。可以通过HuggingFace访问和流式传输该数据集。

提供机构：

SciPhi

原始信息汇总

数据集概述

名称: AgentSearch-V1

语言: 英语

大小: 1B<n<10B

任务类别: 文本生成

配置:

默认配置:
- 数据文件:
  - 分割: 训练
  - 路径: "**/*.parquet"

数据集内容

数据量: 包含超过5000万高质量文档和10亿以上文章段落。
内容来源: 包括Arxiv, Wikipedia, Project Gutenberg等，以及经过筛选的Creative Commons数据。

数据集结构

json { "url": ..., "title": ..., "metadata": {"url": "...", "timestamp": "...", "source": "...", "language": "..."}, "text_chunks": ..., "embeddings": ..., "dataset": "book" | "arxiv" | "wikipedia" | "stack-exchange" | "open-math" | "RedPajama-Data-V2" }

数据集创建

目的: 使人文领域最重要的知识可公开搜索，并优化大型语言模型。
方法: 通过过滤、清洗和增强本地公开数据集创建。

引用信息

@software{SciPhi2023AgentSearch, author = {SciPhi}, title = {AgentSearch [ΨΦ]: A Comprehensive Agent-First Framework and Dataset for Webscale Search}, year = {2023}, url = {https://github.com/SciPhi-AI/agent-search} }

源数据

Wikimedia Downloads: 由Wikimedia Foundation提供。
OpenWebMath: 由Keiran Paster等人提供。
RedPajama: 由Together Computer提供。

许可证

请参考所使用数据子集的许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集