linagora/FREDSum
收藏Hugging Face2024-05-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/linagora/FREDSum
下载链接
链接失效反馈官方服务:
资源简介:
FREDSum数据集是一个包含法国各种政治和公共辩论的文本和元数据的综合集合。该数据集旨在为研究人员、语言学家和数据科学家提供丰富的辩论内容资源,用于分析和自然语言处理任务。数据集包含144个辩论,其中115个用于训练,29个用于测试。每个数据项包括唯一ID、辩论文本、三种不同抽象程度的人工摘要、两种抽取式摘要以及两种社区链接。数据集使用CC BY-SA 4.0非商业许可。
The FREDSum dataset is a comprehensive collection of transcripts and metadata from various political and public debates in France. The dataset aims to provide researchers, linguists, and data scientists with a rich source of debate content for analysis and natural language processing tasks, particularly summarization. It includes 144 debates, with 115 for training and 29 for testing. Each entry includes a unique ID, the debate transcript, human-generated abstractive summaries (varying in style from least to most abstractive), extractive summaries, and community links between abstractive and extractive sentences. The dataset is in French and is licensed under CC BY-SA 4.0 for non-commercial use.
提供机构:
linagora
原始信息汇总
数据集概述
FREDSum数据集是一个全面的法语政治和公共辩论转录和元数据集合。该数据集旨在为研究人员、语言学家和数据科学家提供丰富的辩论内容,用于分析和自然语言处理任务。
语言
法语
数据集结构
数据集包含144场辩论,其中115场辩论构成训练集,29场辩论构成测试集。
数据字段
- id : 示例的唯一ID
- Transcript : 辩论的文本
- Abstractive_1-3 : 人工总结的辩论内容。抽象总结风格从最不抽象到最抽象 - Abstractive 1保留名称以避免指代消解,而Abstractive 3是自由形式的
- Extractive_1-2 : 从源辩论中人工选择的重要发言
- Community 1-2 : 抽象社区,将每个抽象句子与支持的提取句子连接起来。Community 1表示Abstractive 1和Extractive 1之间的连接,而Community 2表示Abstractive 3和Extractive 2之间的连接
数据分割
- 训练集 : 115
- 测试集 : 29
许可信息
非商业许可: CC BY-SA 4.0
引用信息
如果您使用此数据集,请引用以下文章:
Virgile Rennard, Guokan Shang, Damien Grari, Julie Hunter, and Michalis Vazirgiannis. 2023. FREDSum: A Dialogue Summarization Corpus for French Political Debates. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 4241–4253, Singapore. Association for Computational Linguistics.



