NewsInterview

Name: NewsInterview
Creator: 加州大学伯克利分校、南加州大学、东北大学
Published: 2024-11-21 09:37:38
License: 暂无描述

arXiv2024-11-21 更新2024-11-23 收录

下载链接：

https://github.com/alex2awesome/news-interview-question-generation

下载链接

链接失效反馈

官方服务：

资源简介：

NewsInterview数据集由加州大学伯克利分校和南加州大学的研究团队创建，包含40,000条来自NPR和CNN的两人信息访谈记录。该数据集旨在研究大型语言模型在新闻采访中的基础语言和战略对话能力。数据集通过收集和处理公开的采访记录创建，涵盖了丰富的自然语言交互场景。其应用领域主要集中在提升大型语言模型在多轮对话中的策略性和说服性对话能力，以解决模型在实际应用中的不足。

NewsInterview Dataset was developed by a research team from the University of California, Berkeley and the University of Southern California, encompassing 40,000 two-person news interview transcripts sourced from NPR and CNN. The primary goal of this dataset is to investigate the fundamental linguistic and strategic conversational capabilities of large language models (LLMs) within the context of news interviews. It is constructed through the collection and processing of publicly available interview records, covering a wide range of natural language interaction scenarios. Its core application areas focus on enhancing the strategic and persuasive conversational abilities of large language models in multi-turn dialogues, so as to address the shortcomings of such models in real-world applications.

提供机构：

加州大学伯克利分校、南加州大学、东北大学

创建时间：

2024-11-21

搜集汇总

数据集介绍

构建方式

NewsInterview数据集通过从National Public Radio (NPR)和Cable News Network (CNN)收集的40,000个双人信息性采访转录本构建而成。这些转录本经过精心筛选，确保其符合信息性采访的标准，并排除了低质量或非信息性的对话。数据集的构建过程中，使用了Llama3.1-70b模型对每个转录本进行分类，以确定参与者的数量和内容的性质，从而确保数据集的高质量和真实性。

特点

NewsInterview数据集的一个显著特点是其规模和多样性。该数据集包含了40,000个高质量的信息性采访转录本，涵盖了广泛的主题和情境，为研究大型语言模型（LLMs）在信息性对话中的表现提供了丰富的资源。此外，数据集中的采访转录本展示了人类采访者在对话中使用的多种话语类型，如确认性陈述、跟进问题和主题过渡问题，这些都为研究LLMs的对话策略提供了宝贵的参考。

使用方法

NewsInterview数据集主要用于评估和提升大型语言模型在信息性采访中的表现。研究者可以通过分析LLMs生成的对话与人类采访者之间的差异，识别模型在对话策略和信息提取方面的不足。此外，数据集还可以用于开发和测试新的对话策略模型，特别是在需要多轮规划和战略思维的情境中。通过在模拟环境中使用该数据集，研究者可以探索如何改进LLMs的对话能力，使其在实际应用中更加有效和自然。

背景与挑战

背景概述

NewsInterview数据集由加州大学伯克利分校和南加州大学的研究团队创建，专注于评估大型语言模型（LLMs）在信息访谈中的基础差距。该数据集包含从NPR和CNN收集的40,000个两人信息访谈，揭示了LLMs在利用确认和转向更高层次问题方面的显著不足。通过构建一个包含源角色和说服元素的现实模拟环境，研究团队旨在促进具有长期回报的代理开发。该数据集的创建不仅解决了大规模对话数据稀缺的问题，还为研究基础沟通提供了丰富的资源。

当前挑战

NewsInterview数据集面临的挑战主要集中在两个方面：一是解决领域问题，即LLMs在信息访谈中缺乏基础语言和战略对话能力；二是构建过程中遇到的挑战，如数据筛选和处理，确保访谈的自然性和高质量。此外，LLMs在识别问题是否已回答和进行说服性对话方面存在显著困难，导致信息提取效果不佳。这些挑战突显了提升LLMs战略对话能力的重要性。

常用场景

经典使用场景

NewsInterview数据集的经典使用场景在于评估和提升大型语言模型（LLMs）在信息性采访中的基础能力。通过分析40,000个来自NPR和CNN的两方信息性采访，研究者能够详细比较LLM生成的对话与人类采访者之间的差异，特别是基础语言的使用和问题类型的多样性。这种分析有助于识别LLMs在多轮对话中的规划和战略思维方面的不足，从而为改进这些模型的对话能力提供依据。

实际应用

NewsInterview数据集的实际应用场景广泛，特别是在新闻采访自动化和教育领域。在新闻行业，该数据集可以用于训练AI采访助手，使其能够更自然地与受访者互动，提高信息获取效率。在教育领域，数据集可以用于开发智能辅导系统，通过模拟采访环境帮助学生提升沟通和信息获取能力。此外，该数据集还可用于心理健康支持系统，通过模拟对话帮助用户表达和解决心理问题。

衍生相关工作

基于NewsInterview数据集，研究者已经开展了一系列相关工作，包括开发模拟采访环境以测试和改进对话代理的战略对话能力。这些工作不仅揭示了LLMs在信息性采访中的表现不足，还提出了通过引入更长远的奖励信号来增强模型多轮对话能力的策略。此外，相关研究还探索了不同受访者角色对LLMs表现的影响，为个性化对话系统的开发提供了新的思路。这些衍生工作为提升LLMs在复杂对话场景中的表现奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集