YIELD

Name: YIELD
Creator: 乔治城大学·信息感知实验室
Published: 2026-04-13 12:12:58
License: 暂无描述

arXiv2026-04-13 更新2026-04-17 收录

下载链接：

https://github.com/infosenselab/yield

下载链接

链接失效反馈

官方服务：

资源简介：

YIELD是由乔治城大学信息感知实验室构建的大规模信息诱导对话数据集，包含2281段跨四个领域（学术访谈、司法程序、新闻调查及口述历史）的真实人类对话，总计2600万token。数据源自明确标注公共许可的档案库，经过人工标注和标准化处理，平均每段对话达171轮次，显著长于现有任务型对话数据集。该数据集旨在支持信息诱导智能体（IEAs）的开发，解决传统对话系统在主动信息获取和机构决策支持场景中的局限性，适用于司法审讯模拟、新闻采访训练等专业领域。

The YIELD dataset is a large-scale information-seeking conversational dataset constructed by the Information Awareness Lab at Georgetown University. It contains 2,281 real human conversations spanning four domains: academic interviews, judicial proceedings, journalistic investigations, and oral histories, with a total of 26 million tokens. The data is sourced from publicly licensed and clearly annotated archives, and has undergone manual annotation and standardization processing. Each conversation averages 171 turns, which is significantly longer than existing task-oriented conversational datasets. This dataset aims to support the development of information-seeking intelligent agents (IEAs), addressing the limitations of traditional conversational systems in scenarios of active information acquisition and institutional decision support, and is applicable to professional fields such as judicial interrogation simulation and news interview training.

提供机构：

乔治城大学·信息感知实验室

创建时间：

2026-04-13

原始信息汇总

YIELD 数据集概述

数据集基本信息

数据集名称：YIELD: A Large-Scale Dataset and Evaluation Framework for Information Elicitation Agents
主要用途：用于信息诱导智能体的大规模数据集和评估框架
数据集地址：https://huggingface.co/datasets/infosense/yield
微调模型适配器地址：https://huggingface.co/infosense/yield-adapters
相关工具包：Elicitation PyPI 包 (https://pypi.org/project/elicitation/)

数据集构成与处理

数据生成使用 yield/dataset/ 文件夹中的流程。
事实新颖性计算使用 yield/factual_novelty/ 文件夹中的流程。
数据集下载后应放置在 proj_store/data/ 目录下，包含 yield/ 和 yield-finetuning/ 子目录。

支持的模型

LLaMA 模型：https://huggingface.co/meta-llama
- meta-llama/Llama-3.1-8B-Instruct
- meta-llama/Llama-3.2-3B-Instruct
DeepSeek 模型：https://huggingface.co/deepseek-ai
- deepseek-ai/DeepSeek-R1-Distill-Llama-8B

模型训练方法

监督微调 (SFT)

主脚本：yield/experiments/supervised_finetuning.py
示例命令：

accelerate launch --config_file config/accelerate_config.yaml ./yield/experiments/supervised_finetuning.py --model_choice meta-llama/Llama-3.1-8B-Instruct --dataset_choice yield_v1_finetuning

离线强化学习 (ORL)

主脚本：yield/experiments/agent_llama.py
支持使用 DeepSpeed 或非 DeepSpeed 配置运行。
示例命令（使用 DeepSpeed）：

accelerate launch --deepspeed_config_file config/deepspeed.json yield/experiments/agent_llama.py --model_choice meta-llama/Llama-3.1-8B-Instruct --dataset_choice yield_v1_factualnovelty_rl
示例命令（不使用 DeepSpeed）：

accelerate launch yield/experiments/agent_llama.py --model_choice meta-llama/Llama-3.1-8B-Instruct --dataset_choice yield_v1_factualnovelty_rl

评估方法

使用 yield/evaluation/ 文件夹中的脚本生成模型话语并进行评估。
需安装 elicitation 包：pip install elicitation
可用评估指标：
- 一致性 (Conformity)
- 进展性 (Progression)
- 轮次长度比 (Turn-Length Ratio)

文档与引用

文档：包含数据清理选择、数据来源、数据集流程等附录文档。
引用文献： bibtex @misc{De_Lima_YIELD_A_Large-Scale_2026, author = {De Lima, Victor and Yang, Grace Hui}, doi = {10.48550/arXiv.2604.10968}, title = {{YIELD: A Large-Scale Dataset and Evaluation Framework for Information Elicitation Agents}}, url = {https://arxiv.org/abs/2604.10968}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在信息抽取智能体研究领域，构建高质量对话数据集是推动技术发展的关键。YIELD数据集的构建过程体现了严谨的学术规范与伦理考量，其采集来源严格限定于具有明确公共领域或知识共享许可的公开资料库，确保了数据的合法性与可追溯性。构建流程涵盖数据获取、人工标注与标准化三个阶段，研究人员从学术访谈、司法程序、新闻调查及口述历史四大领域中，手动处理了多种格式的原始转录文本，经过数周的细致校正与角色标注，最终形成了包含2,281段对话、超过2,600万词符的大规模语料库，并通过分层抽样划分为训练、开发和测试集，为模型训练与评估提供了可靠基础。

特点

YIELD数据集在对话智能体研究领域展现出若干显著特征，其核心在于专为信息抽取智能体设计，区别于传统以满足用户需求为导向的对话系统。该数据集收录的对话平均轮次高达171轮，远超同类任务型对话数据集，为研究长程、连贯的交互行为提供了丰富素材。数据覆盖司法、新闻、学术与口述历史四大专业领域，体现了真实世界机构决策场景的复杂性，其中对话动态呈现出明确的角色不对称性，即提问者旨在以简洁策略引导受访者提供详尽信息。此外，数据集经过严格的伦理审查与标准化处理，确保了内容的可靠性与研究可复现性。

使用方法

为支持信息抽取智能体的系统化研究，YIELD数据集提供了多层面的使用框架。研究者可将其用于监督微调，使基础大语言模型学习人类提问者的分布模式与行为风格。数据集配套的评估框架引入了契合信息抽取任务的新颖指标，包括衡量对话分布一致性的Conformity、评估话题推进程度的Progression以及反映问答篇幅不对称性的Turn-Length Ratio。论文进一步将信息抽取形式化为有限视野的部分可观测马尔可夫决策过程，并展示了利用离线强化学习进行对话级优化的可行性。通过提供的标准化数据分割、评估工具及微调模型适配器，研究者能够便捷地开展模型训练、行为对齐评估及跨领域泛化能力测试。

背景与挑战

背景概述

YIELD数据集由乔治城大学InfoSense实验室的Victor De Lima和Grace Hui Yang于2026年创建，旨在推动信息诱导智能体这一新兴领域的研究。该数据集聚焦于解决传统对话系统与具有机构目标导向的对话智能体之间的核心差异，后者在学术访谈、司法程序和新闻调查等现实场景中需要主动从用户处诱导信息以支持决策。YIELD包含2281个经过伦理采集的人与人对话，涵盖四个领域，总计2600万词元，其规模与对话长度显著超越了现有任务型对话数据集，为训练和评估信息诱导智能体提供了首个大规模、多领域的基准资源，对对话人工智能向主动、目标驱动范式的演进产生了重要影响。

当前挑战

YIELD数据集致力于解决信息诱导这一核心领域问题的挑战，其核心在于如何使智能体在开放式对话中主动引导话题，以最大化累积信息价值，而非追求单一正确答案。这涉及在高维动作空间中规划话语轨迹，并对信息“价值”进行主观且上下文相关的定义。在构建过程中，研究团队面临多重挑战：需从多样化的公开来源（如HTML、PDF、DOCX等格式的转录本）中采集符合伦理与法律许可的数据；原始数据格式异构、说话人标记不一致，使得自动解析不可靠，必须依赖大量人工校正与标注以确保对话结构与角色信息的准确性；此外，将长对话分割为适用于模型训练的固定长度片段，并设计合理的奖励信号以量化信息增益，也是构建过程中的关键难题。

常用场景

经典使用场景

在信息抽取与对话智能体研究领域，YIELD数据集为信息引导型智能体的开发提供了关键支撑。该数据集通过收集学术访谈、司法程序、新闻调查和口述历史等四个领域的人类对话，构建了大规模、长序列的真实交互语料。研究者利用这些对话训练模型，使其能够模拟人类引导者的行为，主动从受访者处提取信息以支持机构目标。经典应用场景包括训练大型语言模型进行信息引导任务，评估模型在长对话中的话题推进能力和信息获取效率。

衍生相关工作

围绕YIELD数据集，已衍生出一系列经典研究工作。基于其构建的POMDP形式化框架与离线强化学习方法，为信息引导任务提供了新的优化路径。相关研究进一步探索了更精细的奖励信号设计，例如结合语义新颖性与信息熵的评估指标。同时，该数据集促进了信息引导评估体系的发展，如提出的顺应性、推进度与轮次长度比等专用指标，已被后续研究采纳并扩展。这些工作共同推动了角色感知与主动对话智能体方向的学术进展。

数据集最近研究