FREDSum
收藏github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/linagora-labs/FREDSum
下载链接
链接失效反馈官方服务:
资源简介:
FREDSum数据集是一个全面的法国政治和公共辩论转录及元数据集合,旨在为研究人员、语言学家和数据科学家提供丰富的辩论内容,用于分析和自然语言处理任务。
The FREDSum dataset is a comprehensive collection of French political and public debate transcripts and metadata, designed to provide researchers, linguists, and data scientists with a rich resource of debate content for analysis and natural language processing tasks.
创建时间:
2023-11-29
原始信息汇总
数据集概述
名称: FREDSum
描述: FREDSum 数据集是一个包含法国政治和公共辩论的转录文本和元数据的综合集合。该数据集旨在为研究人员、语言学家和数据科学家提供丰富的辩论内容,用于分析和自然语言处理任务。
数据集内容
结构:
- 转录文本: 包含辩论转录文件,文件名格式为
Speakers--Partie_X_Theme.txt。 - 摘要_抽取式: 包含两个子文件夹,分别由两位注释者创建的抽取式摘要。
- 摘要_抽象式: 包含三个子文件夹,分别对应三种不同类型的抽象式摘要:
-
- 尽可能保留原始措辞(更抽取式),限制代词使用,使用专有名词。
-
- 尽可能保留原始措辞(更抽取式),允许代词使用。
-
- 自由编写的摘要(更抽象式)。
-
- 摘要_抽象式_预测: 包含由三个模型生成的抽象式摘要:
- Barthez
- ChatGPT
- Open Assistant (基于 Llama 30b)。
- 社区: 包含抽象式摘要 1 和 3 的抽象社区,其中每个抽象式摘要的句子与相应的抽取社区中的支持句子配对。
- FREDSum_test.json: 测试文件名的列表。
版本
- v0.1-emnlp-2023: 包含用于论文 "FREDSum: A Dialogue Summarization Corpus for French Political Debates" 的原始转录文本和摘要。
- 当前版本: 包含标准化的发言人标签和修正的抽象式摘要文本。
引用
若使用此数据集,请引用以下文章:
- Virgile Rennard, Guokan Shang, Damien Grari, Julie Hunter, and Michalis Vazirgiannis. 2023. FREDSum: A Dialogue Summarization Corpus for French Political Debates. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 4241–4253, Singapore. Association for Computational Linguistics.
搜集汇总
数据集介绍

构建方式
FREDSum数据集的构建基于法国政治辩论的广泛语料,涵盖了从法国国民议会和参议院等多个来源的辩论记录。数据集的组织结构包括辩论的原始文本、抽取式摘要和生成式摘要。具体而言,原始文本存储在'transcripts'文件夹中,抽取式摘要由两位标注者分别生成,而生成式摘要则分为三种类型,分别侧重于保留原文措辞、允许指代消解以及自由生成。此外,数据集还包含了由三种模型生成的生成式摘要,以及用于支持生成式摘要的抽象社区结构。
特点
FREDSum数据集的显著特点在于其多层次的摘要结构,既包括抽取式摘要,也包括生成式摘要,且生成式摘要进一步细分为三种不同风格。这种设计不仅为研究者提供了丰富的对比材料,还通过抽象社区的引入,增强了摘要之间的关联性分析。此外,数据集还包含了由先进模型生成的摘要,如Barthez、ChatGPT和Open Assistant,为自然语言处理任务提供了多样化的参考。
使用方法
FREDSum数据集适用于多种自然语言处理任务,特别是对话摘要和文本生成领域。研究者可以通过访问'transcripts'文件夹获取原始辩论文本,并利用'summary_extractive'和'summary_abstractive'文件夹中的摘要进行对比分析。此外,'summary_abstractive_prediction'文件夹中的模型生成摘要可用于评估不同模型的性能。数据集还提供了'FREDSum_test.json'文件,列出了测试文件的名称,便于研究者进行模型验证和性能评估。
背景与挑战
背景概述
FREDSum数据集,由法国政治辩论的全面转录和元数据组成,旨在为研究人员、语言学家和数据科学家提供丰富的辩论内容,以支持自然语言处理任务的分析。该数据集由SUMM-RE(ANR-20-CE23-0017)和CORTEX2(Horizon Europe CL4-2021-HUMAN-01-25)研究项目创建,主要研究人员包括Virgile Rennard、Guokan Shang、Damien Grari、Julie Hunter和Michalis Vazirgiannis。FREDSum的核心研究问题集中在法语政治辩论的对话摘要,其影响力在于为法语自然语言处理领域提供了宝贵的资源,特别是在对话摘要和语言模型预训练方面。
当前挑战
FREDSum数据集在构建过程中面临多项挑战。首先,从法国国家议会和参议院获取并整理大量辩论数据是一项复杂且耗时的任务。其次,生成高质量的摘要,包括抽取式和抽象式摘要,需要精确的语言处理技术和人工校对。此外,确保摘要的多样性和准确性,特别是在不同模型生成的摘要之间进行比较和验证,也是一个重要的挑战。最后,数据集的持续更新和标准化,如发言人标签的标准化和文本校正,需要不断的维护和改进。
常用场景
经典使用场景
FREDSum数据集在自然语言处理领域中,主要用于对话摘要任务。其丰富的法语政治辩论转录文本和多样的摘要形式,为研究人员提供了宝贵的资源。通过分析这些转录和摘要,研究者可以探索如何从复杂的对话中提取关键信息,生成准确且简洁的摘要,这对于提升机器理解人类语言的能力具有重要意义。
实际应用
FREDSum数据集在实际应用中具有广泛的前景,特别是在新闻摘要、政治分析和公共政策研究等领域。例如,新闻机构可以利用该数据集训练模型,自动生成政治辩论的简要报道,从而提高新闻生产的效率。此外,政策制定者和研究人员可以利用这些摘要来快速获取和分析政治辩论的关键点,支持决策制定和学术研究。
衍生相关工作
基于FREDSum数据集,研究者已经开展了一系列相关工作,包括但不限于对话摘要模型的优化、多语言摘要技术的比较研究以及摘要质量评估方法的改进。例如,使用Barthez、ChatGPT和Open Assistant等模型生成的摘要,为研究者提供了不同模型性能的对比数据,推动了对话摘要技术的进步。这些衍生工作不仅丰富了数据集的应用场景,也为未来的研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



