five

FAME

收藏
arXiv2025-02-19 更新2025-02-27 收录
下载链接:
https://github.com/FKIRSTE/synthetic_meeting_transcript
下载链接
链接失效反馈
官方服务:
资源简介:
FAME数据集是由德国哥廷根大学的研究团队通过MIMIC框架生成的,包含800个会议记录,其中英语500个,德语300个。这些会议记录覆盖了14种不同类型的会议,如项目更新、头脑风暴等,并以300篇维基百科文章作为知识来源。数据集通过模拟多智能体对话,生成具有实际知识基础和参与者个人特征的会议记录,旨在为会议总结研究提供一个新的、可扩展的数据代理。

The FAME dataset was generated by the research team from the University of Göttingen, Germany, using the MIMIC framework. It contains 800 meeting transcripts, among which 500 are in English and 300 in German. These transcripts cover 14 distinct types of meetings, such as project updates and brainstorming sessions, and utilize 300 Wikipedia articles as knowledge sources. The dataset is constructed by simulating multi-agent dialogues to generate meeting transcripts with practical knowledge bases and individual characteristics of participants, aiming to provide a novel and scalable data resource for meeting summarization research.
提供机构:
德国哥廷根大学
创建时间:
2025-02-19
搜集汇总
数据集介绍
main_image_url
构建方式
FAME 数据集的构建基于 MIMIC 框架,该框架采用多智能体辩论的方式来生成会议记录。首先,MIMIC 通过定义心理基础参与者配置文件、概述对话和协调大型语言模型 (LLM) 辩论,在给定知识源上生成会议记录。然后,模块化后处理步骤细化这些输出,减少潜在的重复性和过于正式的语气,确保大规模下的连贯、可信的对话。FAME 数据集包含 500 个英语会议和 300 个德语会议,涵盖了 14 种会议类型和 300 篇维基百科文章作为知识来源。
特点
FAME 数据集的特点包括:1. 多语言支持:包含英语和德语会议,便于多语言模型开发和测试。2. 多样性:涵盖 14 种会议类型和 28 个维基百科领域,提供广泛的场景和主题。3. 实时性:模拟真实会议的动态和复杂性,包括打断、暂停和自然语言使用。4. 丰富性:参与者采用独特的说话模式,经历多达四次行为转变,引入动态角色变化。5. 挑战性:与现有语料库相比,FAME 具有更高的信息密度和隐含语境难度。
使用方法
使用 FAME 数据集进行会议摘要研究和其他对话中心应用时,可以采用以下方法:1. 数据集评估:使用心理学基础评估框架评估会议的自然性、社会行为真实性和记录难度。2. 模型训练:使用 FAME 数据集训练会议摘要模型,以改进摘要质量和真实性。3. 应用测试:在真实世界场景中测试模型性能,例如在需要对话数据或模拟社会场景的行为约束条件下。4. 个性化开发:根据特定需求调整 MIMIC 框架,以生成具有特定领域、语言和文化背景的会议记录。
背景与挑战
背景概述
会议摘要领域长期以来面临着高质量数据稀缺的问题,这主要归因于隐私限制和昂贵的收集过程。为了填补这一空白,研究人员推出了FAME数据集,该数据集包含了由MIMIC多智能体会议合成框架生成的500场英文会议和300场德文会议的记录。MIMIC框架通过定义心理基础的参与者配置文件、概述对话并协调大型语言模型(LLM)辩论来生成会议记录。一个模块化的后处理步骤细化了这些输出,减少了潜在的重复性和过于正式的语气,确保了大规模下对话的连贯性和可信度。此外,研究人员还提出了一种基于心理学的评估框架,用于评估自然度、社交行为真实性和记录难度。人类评估表明,FAME数据集近似真实会议的自发性(自然度为4.5/5),保留了说话者为中心的挑战(口语为3/5),并引入了更丰富的信息导向难度(难度为4/5)。这些发现突出了FAME数据集作为现实世界会议条件良好且可扩展代理的重要性,它为会议摘要研究和其他以对话为中心的应用任务提供了新的测试场景。
当前挑战
FAME数据集在构建过程中面临的主要挑战包括:1) 解决了会议摘要领域数据稀缺的问题;2) 在构建过程中采用了MIMIC多智能体会议合成框架,该框架在生成对话时需要考虑参与者之间的交互和话题的演变,这在技术上具有一定的挑战性;3) 如何确保生成的对话的自然度和可信度,以及在对话中体现出真实会议中的复杂性和多样性。
常用场景
经典使用场景
FAME数据集作为多智能体对话模拟框架MIMIC的产物,其最经典的使用场景是在会议摘要研究中。FAME提供了500个英文和300个德文会议的转录文本,涵盖了14种会议类型和300篇维基百科文章作为知识来源。这些数据对于训练和测试会议摘要系统至关重要,因为它们能够模拟真实会议的条件,并允许研究人员探索新的测试场景,例如多语言会议摘要和多领域会议摘要。此外,FAME还可以用于其他以对话为中心的应用,例如对话生成、对话摘要和社交模拟。
解决学术问题
FAME数据集解决了会议摘要研究中数据稀缺的问题。由于隐私限制和昂贵的收集过程,高质量的会议数据非常有限。FAME通过其多智能体对话模拟框架MIMIC生成会议转录文本,从而填补了这一空白。此外,FAME还提出了一种基于心理学的评估框架,用于评估自然度、社交行为真实性和转录难度。这些评估结果表明,FAME是一个良好的、可扩展的代理,能够模拟现实世界的会议条件,并允许研究人员开发新的测试场景,从而推动会议摘要研究的发展。
衍生相关工作
FAME数据集的发布衍生了许多相关的工作。例如,一些研究人员使用FAME数据集来开发新的会议摘要模型,这些模型能够更好地模拟真实世界的会议条件。此外,一些研究人员还使用FAME数据集来开发新的对话生成模型和对话摘要模型。这些模型在自然度、真实性和效率方面都取得了显著的改进。此外,一些研究人员还使用FAME数据集来探索社交模拟,以帮助研究人员更好地理解社交动态和人类行为。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作