five

RPKB

收藏
Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/Stephen-SMJ/RPKB
下载链接
链接失效反馈
官方服务:
资源简介:
R-Package Knowledge Base (RPKB) 是一个预计算的 ChromaDB 向量数据库,包含从 CRAN 精心挑选的 8,191 个高质量 R 函数,并附有提取的统计元数据(数据配置文件)和由 DARE 模型生成的预计算嵌入。该数据集的主要用途是为执行数据科学和统计工作流的 R 语言 LLM 代理提供工具检索功能。数据库采用 ChromaDB 引擎,嵌入模型为 `Stephen-SMJ/DARE-R-Retriever`。用户可以通过 `huggingface_hub` 和 `chromadb` 库轻松下载并将此数据库加载到自己的代理工作流中。
创建时间:
2026-02-27
原始信息汇总

R-Package Knowledge Base (RPKB) 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 文本检索、问答
  • 语言: 英语
  • 标签: R语言、ChromaDB、工具检索、数据科学、LLM智能体
  • 规模类别: n<10K

数据集简介

该数据集是论文《DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval》的官方预计算ChromaDB向量数据库。它包含8,191个高质量R函数,这些函数精心选自CRAN,并附有提取的统计元数据(数据配置文件)以及由**DARE模型**生成的预计算嵌入。

数据库概览

  • 数据库引擎: ChromaDB
  • 文档总数: 8,191个R函数
  • 嵌入模型: Stephen-SMJ/DARE-R-Retriever
  • 主要用例: 为在R中执行数据科学和统计工作流的LLM智能体进行工具检索。

使用方法

1. 安装依赖

bash pip install huggingface_hub chromadb sentence-transformers

2. 下载RPKB并连接

Python from huggingface_hub import snapshot_download import chromadb

1. 从Hugging Face下载数据库文件夹

db_path = snapshot_download( repo_id="Stephen-SMJ/RPKB", repo_type="dataset", allow_patterns="RPKB/*" )

2. 连接到本地ChromaDB实例

client = chromadb.PersistentClient(path=f"{db_path}/RPKB")

3. 访问特定集合

collection = client.get_collection(name="inference")

print(f"✅ Loaded {collection.count()} R functions ready for conditional retrieval!")

3. 执行R包检索

Python from sentence_transformers import SentenceTransformer

加载DARE嵌入模型

model = SentenceTransformer("Stephen-SMJ/DARE-R-Retriever")

使用数据约束构建查询

user_query = "I have a high-dimensional genomic dataset named hidra_ex_1_2000.csv in my environment. I need to identify driver elements by estimating regulatory scores based on the counts provided in the data. Please set the random seed to 123 at the start. I need to filter for fragment lengths between 150 and 600 bp and use a DNA count filter of 5. For my evaluation, please print the first value of the estimated scores (est_a) for the very first region identified."

生成嵌入

query_embedding = model.encode(user_query).tolist()

在数据库中使用硬过滤器搜索

results = collection.query( query_embeddings=[query_embedding], n_results=3, include=["metadatas", "distances", "documents"] )

显示Top-1结果

print("Top-1 Function:", results["metadatas"][0][0]["package_name"], "::", results["metadatas"][0][0]["function_name"])

搜集汇总
数据集介绍
构建方式
RPKB数据集作为支持大语言模型与R统计生态系统对齐的关键资源,其构建过程体现了对数据科学工具检索的深度考量。该数据集从CRAN(Comprehensive R Archive Network)中精心筛选了8,191个高质量的R函数,每个函数均经过细致的元数据提取,特别是统计层面的数据特征描述。随后,利用专门训练的DARE模型为这些函数生成高维向量表示,并将所有信息整合至ChromaDB向量数据库中,形成一个结构化的知识库,旨在精准捕捉函数功能与数据统计属性之间的复杂关联。
使用方法
使用RPKB数据集主要涉及三个简洁步骤。首先,通过`huggingface_hub`库从Hugging Face平台下载预构建的数据库文件。接着,利用`chromadb`库建立与本地数据库的持久连接,并获取指定的集合。最后,在检索时,用户需使用配套的DARE嵌入模型将自然语言查询转换为向量,随后向数据库发起查询,并可根据需要应用硬性过滤条件。返回的结果包含函数文档、元数据及相似度评分,从而支持智能体在R环境中执行精确的工具调用与工作流构建。
背景与挑战
背景概述
在大型语言模型(LLM)代理与专业计算环境融合的研究浪潮中,R-Package Knowledge Base(RPKB)应运而生。该数据集由研究团队为支持论文《DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval》而构建,旨在解决LLM代理在R语言统计生态系统中执行数据科学工作流时的工具检索难题。RPKB精心收录了来自CRAN的8,191个高质量R函数,并集成了统计元数据(数据概况)以及由专用DARE模型生成的预计算嵌入向量。这一资源为LLM代理提供了结构化的知识基础,显著提升了其在复杂统计任务中准确调用R函数的能力,推动了自动化数据科学工作流的发展。
当前挑战
RPKB致力于应对的核心挑战是LLM代理在R统计环境中进行精准工具检索的难题。R语言拥有庞大且功能各异的程序包生态系统,传统检索方法难以理解函数的统计语义及其适用的数据分布特征,导致检索结果不精准。在构建过程中,挑战主要集中于从海量CRAN包中筛选高质量函数,并为其提取能反映统计特性的结构化元数据(数据概况)。此外,为每个函数生成能够捕捉其统计意图和数据依赖关系的嵌入向量,需要设计专门的分布感知检索模型(DARE),这涉及复杂的特征工程与模型训练,以确保嵌入空间能有效支持基于数据约束的条件检索。
常用场景
经典使用场景
在数据科学和统计计算领域,R语言作为核心工具之一,其庞大的函数库常使开发者在面对复杂任务时难以精准选择。RPKB数据集通过预构建的向量数据库,为大型语言模型(LLM)代理提供了高效的函数检索机制。该数据集最经典的使用场景在于支持LLM代理在R统计生态系统中执行自动化工作流,例如根据用户查询中的统计约束(如数据类型、分布特征或计算需求),动态检索并推荐最相关的R函数,从而优化代码生成与工具调用的准确性。
解决学术问题
RPKB数据集主要针对LLM代理与专业统计环境对齐的学术挑战,解决了传统检索方法在统计函数推荐中因忽略数据分布特性而导致的精度不足问题。通过集成DARE模型生成的嵌入表示,该数据集实现了基于数据分布的感知检索,提升了函数检索的上下文相关性。其意义在于弥合了通用语言模型与领域特定知识之间的鸿沟,为统计计算中的工具检索研究提供了高质量基准,推动了LLM在专业科学计算中的实用化进程。
实际应用
在实际应用中,RPKB数据集能够嵌入到自动化数据科学平台或智能编程助手之中,辅助用户快速完成统计分析与数据处理任务。例如,在基因组学或金融建模场景下,用户可通过自然语言描述数据特征与计算目标,系统利用RPKB检索出匹配的R函数(如数据过滤、回归分析或可视化工具),并自动生成可执行代码片段。这不仅降低了R语言的使用门槛,也显著提升了科研与工程实践中工作流的效率与可重复性。
数据集最近研究
最新研究方向
在数据科学和统计计算领域,R语言作为核心工具,其庞大的函数库为复杂分析提供了强大支持,但如何让大型语言模型(LLM)智能体精准调用这些函数,一直是人机协作的前沿挑战。RPKB数据集的推出,标志着基于分布感知检索(DARE)的LLM智能体对齐研究取得了实质性进展。该数据集通过预计算的ChromaDB向量数据库,集成了8,191个高质量R函数及其统计元数据,为智能体在R统计生态系统中执行工作流提供了即插即用的工具检索基础。当前研究热点聚焦于如何利用此类结构化知识库,增强LLM智能体对专业领域函数的理解与调用能力,从而提升数据科学任务的自动化水平与可靠性,推动智能体在生物信息学、基因组学等具体场景中的实际应用,为跨模态人机协作开辟了新的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作