SparkMe

Name: SparkMe
Creator: 斯坦福大学
Published: 2026-02-25 01:33:02
License: 暂无描述

arXiv2026-02-25 更新2026-02-26 收录

下载链接：

https://github.com/SALT-NLP/SparkMe

下载链接

链接失效反馈

官方服务：

资源简介：

SparkMe数据集由斯坦福大学研究团队创建，旨在支持基于大型语言模型的半结构化访谈自动化研究。该数据集包含多职业参与者的访谈记录，覆盖7个不同领域的70名受访者数据，通过模拟对话和真实用户研究生成。数据来源包括人工设计的访谈主题指南和动态涌现的对话子话题，采用多智能体架构进行系统性采集与标注。该数据集主要用于优化访谈算法的覆盖率和探索性，解决传统定性研究中专家访谈规模受限的问题，可应用于政策制定、产品设计等需要深度定性洞察的领域。

The SparkMe dataset was developed by a research team from Stanford University, with the objective of supporting automated research on semi-structured interviews powered by large language models. This dataset contains interview records from participants across various professions, with data collected from 70 respondents across 7 distinct domains, and was generated through both simulated conversations and real user studies. Its data sources include manually designed interview topic guides and dynamically emerging conversational subtopics, and the dataset was systematically collected and annotated using a multi-agent architecture. This dataset is primarily designed to optimize the coverage and exploratory performance of interview algorithms, addressing the issue of limited scale of expert interviews in traditional qualitative research. It can be applied to fields that require in-depth qualitative insights, such as policy formulation and product design.

提供机构：

斯坦福大学

创建时间：

2026-02-25

原始信息汇总

SparkMe 数据集概述

数据集基本信息

数据集名称：SparkMe
核心功能：一个多智能体半结构化访谈系统，能够进行多轮访谈，具备策略性提问规划、实时笔记记录和新兴子主题发现功能。
支持界面：终端界面和网页界面。

访谈主题配置

主题文件位置：data/configs/topics.json
核心主题：包含10个主要主题和48个子主题。
主题领域：围绕“理解人工智能对劳动力的影响”展开，改编自WorkBank。涵盖领域包括：
- 背景
- 核心职责
- 任务熟练度
- 技术学习适应性
- AI工具采用
- 信任与控制
- 未来展望

系统运行模式

终端模式

启动命令：python src/main.py --user_id <user_id>
关键参数：
- --user_id：（必需）会话的用户标识符。
- --user_agent：使用LLM智能体作为受访者，而非终端输入。
- --voice_input：为用户输入启用语音转文本。
- --voice_output：为访谈者响应启用文本转语音。
- --restart：清除该用户的先前会话数据并重新开始。
- --max_turns N：最大对话轮数。
- --additional_context_path：包含访谈额外上下文文件的路径。

网页模式（需GCP）

功能：
- 用户认证（注册/登录）
- 会话创建与管理
- 文本和语音消息支持
- 实时对话历史记录
- 会话超时处理（默认1小时）
部署脚本：位于scripts/web_interview目录。

系统定制化

可通过修改以下三个组件来适配不同的访谈领域：

访谈主题：编辑data/configs/topics.json文件。该文件是一个JSON数组，每个元素包含一个"topic"（主类别）和"subtopics"（要涵盖的具体领域列表）。
用户画像：编辑data/configs/user_portrait.json文件。这是一个模板，包含在访谈过程中随着系统了解受访者而填充的空字段。可修改字段名称和结构以匹配要捕获的信息。
智能体提示词：修改src/agents/目录下各智能体的prompts.py文件，以改变智能体在特定领域的行为：
- src/agents/interviewer/prompts.py：控制访谈者角色、访谈流程指令、STAR框架使用。
- src/agents/session_scribe/prompts.py：控制笔记记录策略、子主题覆盖评估、新兴见解检测。
- src/agents/strategic_planner/prompts.py：控制问题优先级排序、推出策略、效用函数权重。
- src/agents/user/prompts.py：控制模拟受访者行为（仅在使用--user_agent时相关）。

基线系统

在baselines/目录下提供了四个基线访谈系统。每个系统都接收一个主题规范JSON并运行逐轮访谈，支持人类输入（--input-mode user）和模拟LLM受访者（--input-mode llm）。

InterviewGPT (baselines/interviewgpt/interviewgpt.py)：单智能体访谈者。每轮进行一次LLM调用，处理充分性判断（当前子主题是否已被充分涵盖）和下一个问题生成。从用户响应中跟踪每个子主题的浓缩笔记。将每轮记录为JSONL。
LLMRoleplay (baselines/llmroleplay/llmroleplay.py)：单智能体系统，包含一个被提供议程并按特定固定顺序逐一处理议程每个部分的访谈者。在移动到下一个子主题之前，该智能体最多可以决定重新提问n次。
MimiTalk (baselines/mimitalk/mimitalk.py)：异步双智能体访谈者（访谈者+监督者），其中监督者监控访谈者。
StorySage (baselines/storysage/)：具有多个专门组件的多智能体系统：访谈者智能体、用于笔记记录的会话记录员、策略规划师、章节撰写者和会话协调器。使用向量数据库（FAISS）存储问题库和会话记忆，以便在访谈期间进行语义检索。是架构最复杂的基线。

用户智能体画像生成

可通过dataset_gen/generate_persona_facts.py生成用户智能体角色画像，基于WorkBank工作者种子为每个子主题生成初始角色事实，然后通过dataset_gen/generate_bio_notes.py生成要馈送给用户智能体的个人资料。

评估脚本

评估脚本位于evaluation/目录下，从不同角度评估访谈质量。所有脚本都支持--mode参数来指定要评估哪个系统的日志（sparkme、storysage、llmroleplay或freeform）。其中freeform对应于MimiTalk或InterviewGPT。

覆盖率评估 (eval_coverage.py)：衡量访谈笔记在1-5分制上捕捉基本事实的程度（5分=所有事实被明确找到，1分=未找到相关事实）。在访谈过程中可配置的快照间隔进行评估。
新兴性评估 (eval_emergence.py)：检测访谈过程中超出原始主题计划出现的新兴子主题。一个新兴子主题必须是真正新颖的，属于现有主题范畴，并且能够引发质性的新问题。
新兴性覆盖率评估 (eval_emergence_coverage.py)：评估新兴子主题的覆盖情况。
流程质量评估 (eval_flow.py)：从三个维度评估访谈质量（每个维度评分1-5分）：
- 连贯性：连续问题是否逻辑相连。
- 过渡性：主题间转换的流畅度。
- 应变性：后续问题是否基于受访者先前的回答。
覆盖率计算 (calculate_coverage.py)：从评估结果计算累积覆盖率指标。

引用信息

预印本标题：SparkMe: Adaptive Semi-Structured Interviewing for Qualitative Insight Discovery
作者：David Anugraha, Vishakh Padmakumar, Diyi Yang
期刊：arXiv preprint arXiv:XXXX.XXXXX
年份：2026

搜集汇总

数据集介绍

构建方式

在定性研究领域，大规模收集用户半结构化访谈数据长期受限于专家时间与可用性。为应对这一挑战，SparkMe数据集通过一种创新的多智能体大语言模型访谈系统构建而成。该系统将自适应半结构化访谈形式化为一个优化问题，其核心在于平衡预定义主题指南的覆盖度、相关新兴主题的发现以及访谈成本。具体构建过程中，研究者首先基于文献、先验研究或初步数据定义了由核心主题及其细分子主题构成的访谈指南。随后，利用从职业任务工作者调查中提取的用户档案，实例化了200个基于大语言模型的模拟用户代理。SparkMe系统通过模拟对话推演进行审慎规划，选择具有高期望效用的提问序列，从而在与这些模拟代理的交互中自动生成访谈数据。

特点

SparkMe数据集的核心特点在于其生成机制对访谈核心目标的显式优化与系统性平衡。区别于以往依赖提示工程隐式协调访谈目标的系统，该数据集通过一个可定制的效用函数，将覆盖预定义子主题、发现相关新兴子主题以及最小化访谈成本这三个相互竞争的目标进行了量化整合。这使得数据集不仅确保了访谈对预设话题的系统性探索，更能动态捕捉并深入挖掘参与者在对话中自然引入的、与核心主题相关但未被预见的“新兴子主题”。此外，数据集生成过程引入了探索规划器，通过周期性的对话推演模拟来前瞻性地评估不同提问路径的期望效用，从而引导访谈向可能揭示高价值新兴内容的方向发展，实现了覆盖广度与探索深度的有机结合。

使用方法

SparkMe数据集为评估和发展自动化半结构化访谈系统提供了标准化的测试平台。研究人员可利用该数据集，在受控且可重复的环境中，系统比较不同访谈系统在预定义主题覆盖度、新兴主题发现能力及整体访谈效用等方面的性能。具体而言，数据集附带的评估协议和代码支持对访谈转录本进行自动化分析，例如使用大语言模型作为评判员来量化子主题的覆盖分数、识别新兴子主题，并依据定义的效用函数计算整体得分。此外，该数据集源于一个关于AI对工作流程影响的案例研究，其主题指南和模拟用户档案为相关领域的研究者提供了可直接使用或适配的访谈框架，用于探索职业工作者对技术变革的认知与体验，助力于大规模定性洞察的发现。

背景与挑战

背景概述

SparkMe数据集由斯坦福大学研究人员于2026年提出，旨在解决大规模定性数据收集中的核心瓶颈。该数据集专注于自适应半结构化访谈的自动化，通过多智能体大语言模型系统，平衡预定义话题覆盖与对话中自然涌现主题的探索。其核心研究问题在于如何形式化访谈效用，将话题覆盖度、新兴主题发现与访谈成本纳入统一优化框架，从而推动人机交互与定性研究方法学的交叉创新。该工作对社会科学、产品设计与政策制定等领域产生了深远影响，为高效、深度的用户洞察获取提供了可扩展的计算范式。

当前挑战

SparkMe数据集面临的挑战主要体现在两方面：其一，在解决半结构化访谈自动化这一领域问题时，需克服预定义话题系统覆盖与自适应探索新兴主题之间的固有张力，传统方法缺乏显式机制来优化这一权衡；其二，在构建过程中，如何设计可计算的效用函数以准确评估访谈质量，以及如何通过多智能体架构与对话模拟实现高效规划，均是关键的技术难点。此外，数据集的评估还需应对模拟用户代理与真实人类参与者之间的差异，确保自动化访谈系统在实际部署中能产生可靠、深入的定性洞察。

常用场景

经典使用场景

在定性研究领域，大规模收集用户半结构化访谈数据长期受限于专家时间与资源。SparkMe数据集通过模拟多轮对话展开，为自动化半结构化访谈系统提供了基准测试环境。该数据集最经典的使用场景在于评估不同大语言模型访谈系统在预定义话题覆盖与新兴主题探索之间的平衡能力。研究者可利用该数据集，在受控环境中系统比较各访谈系统的话题覆盖率、访谈效用及对话连贯性，从而为自动化定性数据收集方法的优化提供实证依据。

实际应用

在实际应用层面，SparkMe数据集为需要大规模定性洞察的领域提供了可行的技术路径。例如，在产品设计与政策制定过程中，研究者可利用基于该数据集训练的访谈系统，快速收集跨职业、跨背景用户关于人工智能对工作流程影响的深度见解。数据集所支持的自动化访谈能够以较低成本覆盖广泛人群，同时保持对话的适应性与探索性，从而捕捉到预先未设定的新兴主题与职业特定洞察，为决策提供丰富、细粒度的实证材料。

衍生相关工作

围绕SparkMe数据集，已衍生出一系列专注于自动化访谈与定性数据收集的经典研究工作。例如，StorySage系统利用多智能体架构进行传记式访谈；LLM-Roleplay采用单一智能体按序遍历访谈提纲；Interview-GPT则依赖提示级指导动态探索话题；MimiTalk通过监督智能体与访谈智能体协作实施约束。这些工作与SparkMe共同构成了基于大语言模型的自动化访谈研究谱系，分别从架构设计、交互策略与评估方法等角度推进了该领域的发展，并为后续研究提供了多样化的基线系统与比较框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集