ELITR Minuting Corpus
收藏数据集概述
数据集名称
- ELITR Minuting Corpus
数据集内容
- 原始格式:TEXT
- 转换格式:JSON
数据集组成部分
-
Manual meeting transcriptions
-
处理脚本:transcript.py
-
数据结构: json { "id": "meeting_id.u.line_number", "speaker": "deidentified_speaker_tag", "text": "utterance_text", "problem": ["annotation_properties"], "gender": "speaker_gender", "annotator": "annotator_id" }
-
注释说明:
id:表示话语的唯一标识,包含会议ID、话语类型和行号。speaker和gender:表示匿名的说话者标签和性别。annotator:表示转录的注释者。problem:表示话语的问题或有趣属性,由注释者标记。
-
-
Extractive summaries
-
处理脚本:extractive.py
-
数据结构: json { "id": "meeting_id.u.line_number", "speaker": "deidentified_speaker_tag", "text": "summary_text", "problem": ["annotation_properties"], "gender": "speaker_gender", "annotator": "annotator_id" }
-
注释说明:
- 每个会议可以有零到多个提取摘要。
- 文件命名方式:[meeting_id]_ORIG.json 或 [meeting_id]_GENER_annot[YY].json。
-
-
Meeting minutes / Abstractive summaries
-
处理脚本:minute.py
-
数据结构: json { "id": "meeting_id.GENER_annotYY.line_number", "text": "summary_text" }
-
注释说明:
- 每个会议可以有零到多个会议纪要。
- 文件命名方式:[meeting_id]_ORIG.json 或 [meeting_id]_GENER_annot[YY].json。
-
-
Alignment / Abstractive summaries
-
处理脚本:alignment.py
-
数据结构: json { "abstractive": { "id": "meeting_id.GENER_annotYY.line_number", "text": "summary_text" }, "extractive": [ { "id": "meeting_id.u.line_number", "speaker": "deidentified_speaker_tag", "text": "utterance_text", "problem": ["annotation_properties"], "gender": "speaker_gender", "annotator": "annotator_id" } ] }
-
注释说明:
- 每个会议可以有零到多个摘要对齐。
- 文件命名方式:[meeting_id]_ORIG.json 或 [meeting_id]_GENER_annot[YY].json。
-
数据集语言
- 英语:elitr-minuting-corpus-en
- 捷克语:elitr-minuting-corpus-cs
数据集分割
- 训练集、验证集、测试集和测试集2根据会议ID进行分割。
引用信息
- 相关论文:
- Abstractive Meeting Summarization: A Survey
- Energy-based Self-attentive Learning of Abstractive Communities for Spoken Language Understanding
- Spoken Language Understanding for Abstractive Meeting Summarization
- Unsupervised abstractive meeting summarization with multi-sentence compression and budgeted submodular maximization




