DeepConsult

github2025-05-16 更新2025-05-17 收录

下载链接：

https://github.com/Su-Sea/ydc-deep-research-evals

下载链接

链接失效反馈

官方服务：

资源简介：

DeepConsult数据集包含商业和咨询相关提示的集合，设计用于深度研究。这些查询涵盖了市场分析、投资机会、行业特定评估、财务建模和评估、技术趋势分析以及战略业务规划等多个主题。数据集还包括来自OpenAI DeepResearch和ARI的响应，用于评估脚本。

The DeepConsult dataset is a curated collection of business and consulting-focused prompts developed for deep research purposes. These prompts span a diverse array of topics including market analysis, investment opportunities, industry-specific assessments, financial modeling and valuation, technical trend analysis, and strategic business planning. Furthermore, the dataset incorporates responses generated by OpenAI DeepResearch and ARI for use in evaluation scripts.

创建时间：

2025-05-14

原始信息汇总

DeepConsult 数据集概述

数据集简介

DeepConsult 是一个用于评估深度研究报告的基准数据集，专注于商业和咨询领域的复杂查询。该数据集旨在评估语言模型在执行深度研究方面的能力，特别是针对专业咨询报告的分析、综合和洞察力。

数据集内容

主要文件

queries.csv
- 包含为深度研究设计的商业和咨询相关提示
- 涵盖主题范围：
  - 市场分析和投资机会
  - 行业特定评估
  - 财务建模和评估
  - 技术趋势分析
  - 战略业务规划
responses_OpenAI-DeepResearch_vs_ARI_2025-05-15.csv
- 包含来自 OpenAI DeepResearch 和 ARI 的响应
- 文件格式：
  - question: 原始研究问题/提示
  - baseline_answer: OpenAI Deep Research 的参考响应
  - candidate_answer: 待评估的 ARI 响应

评估维度

指令遵循: 评估响应与用户指定指令和约束的符合程度
全面性: 衡量响应中信息覆盖的广度和范围
完整性: 衡量报告中涉及主题的信息深度和彻底性
写作质量: 评估报告的清晰度、简洁性、逻辑组织和整体可读性

数据集用途

基准测试和评估语言模型在复杂商业和咨询查询上的深度研究能力
比较不同模型生成的研究报告质量
评估模型提供全面、结构良好且具有洞察力的分析能力

技术细节

评估脚本: deep_research_pairwise_evals.py
输入数据格式要求:
- CSV文件必须包含question、baseline_answer和candidate_answer列
输出格式:
- JSONL格式的评估结果
- 包含每个评估维度的分数和聚合指标

系统要求

Python 3.10+
OpenAI API访问权限
Git LFS (用于下载数据集)

搜集汇总

数据集介绍

构建方式

DeepConsult数据集的构建基于专业咨询与商业研究领域的需求，通过精心设计的商业咨询查询和深度研究报告的对比评估框架完成。数据集包含两个核心文件：queries.csv收录了涵盖市场分析、投资机会、行业评估等多元主题的商业咨询提示；responses_OpenAI-DeepResearch_vs_ARI_2025-05-15.csv则采用对照实验设计，将OpenAI深度研究报告作为基准答案，与待评估模型输出进行四维度的结构化比对。这种构建方式确保了数据在专业性和可比性上的双重价值。

使用方法

使用该数据集需通过Git LFS获取完整数据文件后，运行配套的深度研究评估脚本。评估流程支持多线程并行处理，通过Python API可直接调用DeepResearchPairwiseMetric模块进行单条或批量测试。输入数据需严格遵循三列CSV格式，输出结果为包含四维度分值的JSONL结构化报告。用户可通过调整评估模型、工作线程数等参数实现定制化评测，系统默认采用三次试验取平均值的策略消除位置偏差，确保结果具有统计显著性。

背景与挑战

背景概述

DeepConsult数据集是由专业研究团队构建的深度研究基准，专注于商业咨询领域的复杂查询分析。该数据集于2025年发布，旨在评估语言模型在商业咨询场景下的深度研究能力，其设计灵感来源于Google关于Gemini 2.5 Pro实验性深度研究能力的博客文章。数据集核心研究问题聚焦于如何提升语言模型在商业分析、市场评估和技术趋势预测等专业领域的表现，为商业智能和咨询行业提供了重要的评估工具。通过包含市场分析、投资机会评估、财务建模等多样化查询，该数据集已成为衡量AI系统商业分析能力的重要基准。

当前挑战

DeepConsult数据集面临的挑战主要体现在两个方面：领域问题方面，商业咨询查询通常涉及多维度、非结构化的复杂信息，要求模型具备强大的信息整合与逻辑推理能力，这对现有自然语言处理技术提出了极高要求；构建过程方面，专业商业分析报告的撰写需要领域专家参与，确保参考回答的质量与权威性，同时保持评估维度的客观性与一致性也面临挑战。数据集构建团队需平衡查询的广度与深度，确保覆盖典型商业场景的同时维持评估标准的科学性。

常用场景

经典使用场景

DeepConsult数据集作为商业咨询领域的深度研究基准，其经典使用场景主要集中在评估语言模型生成商业研究报告的能力。研究人员通过该数据集中的市场分析、行业评估、财务建模等复杂查询，系统性地测试模型在遵循指令、信息覆盖广度、分析深度以及文本质量等维度的表现。这种评估方式为商业智能领域提供了标准化的测试环境，使得不同模型在生成咨询报告时的性能对比成为可能。

解决学术问题

该数据集有效解决了商业咨询领域人工智能研究的核心难题——如何量化评估模型生成报告的学术价值。通过构建包含指令遵循、全面性、完整性和写作质量的多维评价体系，研究人员能够客观衡量模型在信息整合、逻辑推理和专业表达方面的能力。这种评估框架为提升AI在战略分析、投资决策等专业场景的应用可靠性提供了理论基础。

实际应用

在实际应用中，DeepConsult数据集被广泛应用于商业咨询公司的智能化转型。投资机构利用该数据集训练模型自动生成行业趋势报告，咨询公司则通过基准测试筛选最优模型用于客户战略规划。数据集涵盖的科技趋势分析、市场机会评估等主题，直接服务于企业决策支持系统，显著提升了商业研究的效率和质量。

数据集最近研究