Meeting Delegate Benchmark Dataset
收藏arXiv2025-02-06 更新2025-02-26 收录
下载链接:
http://arxiv.org/abs/2502.04376v1
下载链接
链接失效反馈官方服务:
资源简介:
Meeting Delegate Benchmark Dataset是一个基于真实会议转录的综合性评估数据集,由东北大学、北京大学和微软的研究人员创建。该数据集包含61份英文会议转录文本,从中提取了846个测试案例,用于评估大型语言模型在会议参与中的表现。数据集覆盖了显式提示、隐式提示、插入对话和不发言四种常见场景,反映了会议的复杂性和多参与者的互动。
The Meeting Delegate Benchmark Dataset is a comprehensive evaluation dataset based on real meeting transcripts, developed by researchers from Northeastern University, Peking University, and Microsoft. It includes 61 English meeting transcript texts, from which 846 test cases are extracted to evaluate the performance of large language models (LLMs) in meeting participation scenarios. The dataset covers four common scenarios: explicit prompting, implicit prompting, inserted dialogue, and non-speaking, which reflects the complexity of meetings and the interactive dynamics among multiple participants.
提供机构:
东北大学中国, 北京大学中国, 微软
创建时间:
2025-02-06
搜集汇总
数据集介绍

构建方式
该数据集的构建采用了真实会议记录,并通过LLM技术对会议记录进行“快照”处理,生成测试案例。具体来说,从ELITR Minuting Corpus中选取了61份英语会议记录,利用GPT-4对每个参与者的发言进行分析,提取会议意图和可分享信息,作为会议参与模块的输入。然后从会议记录中提取合适的“快照”作为测试案例,并确定真实场景下的回应。为了评估会议代表在不适合发言时保持沉默的能力,从匹配数据集中构建了一个不匹配数据集。此外,为了研究会议转录系统中的噪声对会议代表性能的影响,构建了一个噪声名称数据集。
特点
该数据集的特点在于它基于真实的会议记录,包含了丰富的多参与者和多轮对话场景。数据集中的测试案例涵盖了四种常见的场景:显式提示、隐式提示、插话和不发言。这些测试案例旨在评估LLM在会议中的参与能力和应对策略。数据集还包含了一个噪声名称数据集,用于研究转录错误对会议代表性能的影响。
使用方法
该数据集可用于评估LLM在会议中的参与能力和应对策略。研究人员可以利用该数据集对LLM进行训练和测试,以评估它们在处理真实会议场景中的表现。数据集还包含了一个噪声名称数据集,可用于研究转录错误对会议代表性能的影响。此外,数据集的构建过程和评估指标也为LLM在会议场景中的应用提供了有价值的参考。
背景与挑战
背景概述
会议是现代工作场所中不可或缺的部分,它们对于交换想法和确保团队一致性至关重要。然而,会议往往面临时间消耗、日程冲突和参与效率低下等挑战。大型语言模型(LLMs)在自然语言生成和推理方面的进步引发了这样一个问题:LLMs能否有效地代表参与者参加会议?为了探索这一点,研究人员开发了一个原型LLM驱动的会议代表系统,并创建了一个基于真实会议记录的全面基准。该基准涵盖了四种常见场景:明确提示、隐含提示、插话和保持沉默。研究表明,GPT-4/4o在积极和谨慎的参与策略之间保持了平衡的性能,而Gemini 1.5 Pro则更为谨慎,Gemini 1.5 Flash和Llama3-8B/70B则表现出更积极的倾向。总体而言,约60%的回复至少涉及了一个关键点,这表明LLM驱动的会议代表具有潜力,但需要改进以减少无关或重复的内容,并增强对实际环境中常见的转录错误的容忍度。该系统在实际场景中的部署和从演示中收集的真实反馈进一步强调了使用LLMs作为会议代表的潜力和挑战,为LLMs在实际工作环境中的应用提供了有价值的见解。
当前挑战
构建LLM驱动的会议代表系统面临多方面的挑战。首先,这类系统必须导航复杂的、语境丰富的对话,涉及多个参与者,这要求它们能够判断参与和抑制的时机。其次,人类的对话通常包含模糊性和不确定性,如指向模糊的查询或与发音相关的模糊性,这些都挑战了系统有效响应的能力。此外,确保用户隐私至关重要,以防止过度分享信息并保护用户的个人形象。最后,这些系统必须实时运行,需要低延迟的响应。该研究开发的会议代表系统原型旨在解决上述挑战,重点关注前两个挑战,而将后两个挑战留待未来工作。为了评估不同LLMs的有效性,研究人员在一些演示场景中进行了实际测试,并从真实会议记录中构建了一个评估数据集。该数据集的创建和评估揭示了LLMs在会议中的潜力和局限性,为LLMs在专业环境中的应用提供了宝贵的见解。
常用场景
经典使用场景
The Meeting Delegate Benchmark Dataset is primarily used to assess the capabilities of Large Language Models (LLMs) in acting as delegates in meetings. This involves evaluating their ability to participate in meetings on behalf of individuals, understand meeting contexts, and generate relevant responses. The dataset is particularly useful for researchers and developers working on AI-powered meeting assistant systems, as it provides a comprehensive benchmark for testing and comparing the performance of various LLMs in meeting scenarios.
解决学术问题
The Meeting Delegate Benchmark Dataset addresses the academic challenge of determining whether LLMs can effectively represent individuals in meetings. It provides a framework for evaluating the performance of LLMs in understanding meeting contexts, participating in discussions, and generating appropriate responses. The dataset also helps in identifying the challenges faced by LLMs in handling complex, context-rich conversations and offers insights into improving their performance in real-world settings.
衍生相关工作
The Meeting Delegate Benchmark Dataset has inspired several related works in the field of AI-powered meeting assistant systems. These include research on improving the performance of LLMs in understanding meeting contexts, generating relevant responses, and handling real-world challenges such as transcription errors. The dataset has also been used to develop practical applications for meeting assistant systems, including user-friendly interfaces and applications that allow individuals to interact with AI-powered meeting assistants. Future research can build upon the insights gained from this dataset to further improve the capabilities of AI-powered meeting assistant systems and explore new applications in collaborative work environments.
以上内容由遇见数据集搜集并总结生成



