ELITR Minuting Corpus

github2023-04-28 更新2024-05-31 收录

下载链接：

https://github.com/guokan-shang/elitr-minuting-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个将原始TEXT格式转换为JSON格式的数据集，用于保持与ami-and-icsi-corpora格式的一致性。数据集包含会议记录的详细注释，包括说话者信息、文本内容、问题标记以及各种语言和声音的标签。

This dataset converts raw TEXT format into JSON format to maintain consistency with the ami-and-icsi-corpora format. It includes detailed annotations of meeting records, encompassing speaker information, textual content, question markers, and various linguistic and acoustic labels.

创建时间：

2023-04-12

原始信息汇总

数据集概述

数据集名称

ELITR Minuting Corpus

数据集内容

原始格式：TEXT
转换格式：JSON

数据集组成部分

Manual meeting transcriptions
- 处理脚本：transcript.py
- 数据结构： json { "id": "meeting_id.u.line_number", "speaker": "deidentified_speaker_tag", "text": "utterance_text", "problem": ["annotation_properties"], "gender": "speaker_gender", "annotator": "annotator_id" }
- 注释说明：
  - id：表示话语的唯一标识，包含会议ID、话语类型和行号。
  - speaker和gender：表示匿名的说话者标签和性别。
  - annotator：表示转录的注释者。
  - problem：表示话语的问题或有趣属性，由注释者标记。
Extractive summaries
- 处理脚本：extractive.py
- 数据结构： json { "id": "meeting_id.u.line_number", "speaker": "deidentified_speaker_tag", "text": "summary_text", "problem": ["annotation_properties"], "gender": "speaker_gender", "annotator": "annotator_id" }
- 注释说明：
  - 每个会议可以有零到多个提取摘要。
  - 文件命名方式：[meeting_id]_ORIG.json 或 [meeting_id]_GENER_annot[YY].json。
Meeting minutes / Abstractive summaries
- 处理脚本：minute.py
- 数据结构： json { "id": "meeting_id.GENER_annotYY.line_number", "text": "summary_text" }
- 注释说明：
  - 每个会议可以有零到多个会议纪要。
  - 文件命名方式：[meeting_id]_ORIG.json 或 [meeting_id]_GENER_annot[YY].json。
Alignment / Abstractive summaries
- 处理脚本：alignment.py
- 数据结构： json { "abstractive": { "id": "meeting_id.GENER_annotYY.line_number", "text": "summary_text" }, "extractive": [ { "id": "meeting_id.u.line_number", "speaker": "deidentified_speaker_tag", "text": "utterance_text", "problem": ["annotation_properties"], "gender": "speaker_gender", "annotator": "annotator_id" } ] }
- 注释说明：
  - 每个会议可以有零到多个摘要对齐。
  - 文件命名方式：[meeting_id]_ORIG.json 或 [meeting_id]_GENER_annot[YY].json。

数据集语言

英语：elitr-minuting-corpus-en
捷克语：elitr-minuting-corpus-cs

数据集分割

训练集、验证集、测试集和测试集2根据会议ID进行分割。

引用信息

相关论文：

搜集汇总

数据集介绍

构建方式

ELITR Minuting Corpus的构建过程涉及将原始TEXT格式的会议转录注释转换为JSON格式，以保持与ami-and-icsi-corpora格式的一致性。该过程通过Python脚本实现，包括手动会议转录、提取性摘要、会议纪要/抽象性摘要以及对齐/抽象性摘要的转换。数据集分为训练集、验证集和测试集，分别针对英语和捷克语数据，确保了数据的多样性和广泛性。

特点

ELITR Minuting Corpus的特点在于其详细的注释系统，包括发言者身份、性别、注释者信息以及话语的问题属性。此外，数据集还包含多种语言标签和声音标签，如不同语言的发言、打字声、咳嗽等，为研究提供了丰富的上下文信息。数据集的结构化格式和详细的元数据标注，使其成为研究会议摘要和自然语言处理的宝贵资源。

使用方法

使用ELITR Minuting Corpus时，用户需首先下载并解压原始数据集，随后通过运行提供的Python脚本将数据转换为JSON格式。数据集的使用涉及多个步骤，包括转录、摘要生成和对齐处理，用户可以根据研究需求选择相应的脚本进行处理。此外，数据集的分割方式（训练、验证、测试集）为模型的训练和评估提供了便利，确保了研究的系统性和科学性。

背景与挑战

背景概述

ELITR Minuting Corpus 是一个专注于会议摘要生成的数据集，由ELITR项目团队于2021年创建。该数据集旨在为自然语言处理领域的研究人员提供高质量的会议转录和摘要数据，以推动自动会议摘要技术的发展。数据集包含英语和捷克语的会议转录文本，涵盖了多种会议场景，如学术讨论、项目规划等。ELITR Minuting Corpus 的创建基于对现有会议摘要技术的不足，特别是在多语言和跨领域场景下的挑战。该数据集已被广泛应用于会议摘要、语音识别和自然语言理解等领域的研究，显著提升了相关技术的性能。

当前挑战

ELITR Minuting Corpus 面临的挑战主要体现在两个方面。首先，会议摘要生成本身具有较高的复杂性，因为会议内容通常包含大量的非结构化信息、多轮对话以及跨语言表达，这对摘要模型的语义理解和信息压缩能力提出了极高的要求。其次，在数据集的构建过程中，研究人员需要处理大量的原始会议录音和转录文本，确保数据的准确性和一致性。此外，由于会议内容涉及隐私和敏感信息，数据脱敏和匿名化处理也成为构建过程中的一大挑战。这些挑战不仅影响了数据集的构建效率，也对后续的研究和应用提出了更高的技术要求。

常用场景

经典使用场景

ELITR Minuting Corpus 数据集在自然语言处理领域中被广泛应用于会议摘要生成任务。该数据集包含了多语言（如英语和捷克语）的会议转录文本及其对应的摘要，研究人员可以利用这些数据进行会议摘要模型的训练与评估。通过该数据集，研究者能够深入探讨如何从复杂的会议对话中提取关键信息，并生成简洁、连贯的摘要。

解决学术问题

ELITR Minuting Corpus 数据集解决了会议摘要生成中的多个关键学术问题。首先，它提供了丰富的多语言会议转录数据，帮助研究者克服语言多样性带来的挑战。其次，数据集中的标注信息（如问题类型、说话者信息等）为模型提供了额外的上下文信息，有助于提升摘要的准确性和连贯性。此外，该数据集还支持抽象摘要和抽取式摘要的对比研究，推动了摘要生成技术的多样化发展。

衍生相关工作

ELITR Minuting Corpus 数据集催生了许多经典的研究工作。例如，基于该数据集的《Abstractive Meeting Summarization: A Survey》对会议摘要生成技术进行了全面综述，为后续研究提供了重要参考。此外，Guokan Shang 等人的研究《Energy-based Self-attentive Learning of Abstractive Communities for Spoken Language Understanding》利用该数据集提出了基于能量的自注意力机制，显著提升了摘要生成模型的性能。这些工作进一步推动了会议摘要生成领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集