PublicHearingBR
收藏arXiv2024-10-10 更新2024-10-12 收录
下载链接:
https://huggingface.co/datasets/unicamp-dl/PublicHearingBR
下载链接
链接失效反馈官方服务:
资源简介:
PublicHearingBR是由巴西众议院创建的一个葡萄牙语数据集,旨在支持长文档摘要任务。该数据集包含巴西众议院公共听证会的转录文本,每个转录文本与新闻文章和结构化摘要配对,涵盖了参与听证会的个人及其观点。数据集的大小和复杂性使其适用于训练和评估长文档摘要系统。创建过程包括手动选择新闻文章、下载和解析HTML文件、使用GPT-4模型提取结构化摘要,并进行手动校正。PublicHearingBR的应用领域包括自然语言处理中的长文档摘要和自然语言推理任务,旨在解决非英语语言中长文档摘要资源的稀缺问题。
PublicHearingBR is a Portuguese-language dataset developed by the Chamber of Deputies of Brazil to support long-document summarization tasks. This dataset comprises transcriptions of public hearings hosted by the Brazilian Chamber of Deputies, where each transcription is paired with corresponding news articles and structured summaries covering participating individuals and their respective viewpoints. Given its scale and complexity, the dataset is well-suited for training and evaluating long-document summarization systems. The dataset creation workflow involves manually selecting news articles, downloading and parsing HTML files, extracting structured summaries via the GPT-4 model, and performing manual corrections. Application areas of PublicHearingBR include long-document summarization and natural language inference tasks within natural language processing, with the goal of addressing the scarcity of long-document summarization resources for non-English languages.
提供机构:
巴西众议院, 巴西坎皮纳斯州立大学, 巴西卡里里联邦大学
创建时间:
2024-10-10
原始信息汇总
PublicHearingBR: 巴西葡萄牙语公共听证会转录数据集
概述
PublicHearingBR 是一个葡萄牙语数据集,适用于两种任务:长文档摘要(LDS)和自然语言推理(NLI)。数据集包含两个文件:PublicHearingBR_LDS.jsonl 和 PublicHearingBR_NLI.jsonl。
1. PublicHearingBR_LDS - 长文档摘要
- 文件:
PublicHearingBR_LDS.jsonl - 样本数量: 206
- 结构:
id: 样本编号(从1到206)transcricao: 公共听证会转录文本(长文档)materia: 新闻文章提取的文本(摘要)metadados: 结构化摘要,包含以下字段:assunto: 文章的主要话题envolvidos: 包含所有提及人物及其详细信息的列表,每个元素包含:cargo: 人物职位nome: 人物姓名opinioes: 人物表达的意见列表
2. PublicHearingBR_NLI - 自然语言推理
- 文件:
PublicHearingBR_NLI.jsonl - 样本数量: 4,238
- 结构:
id: 引用phbr_lds中的样本编号metadados_extraidos: 包含以下字段:assunto: 转录文本的主要话题envolvidos: 包含以下字段:nome: 实验提取的人物姓名cargo: 实验提取的人物职位opinioes: 人物意见列表,每个元素包含:opiniao: 实验提取的意见chunks_proximos: 包含四个块的列表,用于判断是否可以从这些块中推断出意见verificacao_alucinacao: 幻觉验证,包含以下字段:verificacao_manual: 手动注释,布尔值,表示意见是否为幻觉prompt_1_gpt-4o-mini-2024-07-18: 自动验证结果prompt_2_gpt-4o-mini-2024-07-18: 自动验证结果prompt_3_gpt-4o-mini-2024-07-18: 自动验证结果
搜集汇总
数据集介绍

构建方式
PublicHearingBR数据集的构建始于对Agência Câmara de Notícias发布的与公共听证会相关的新闻文章的手动选择。研究团队从2021年11月至2024年5月期间选择了206篇相关文章,并手动搜索了这些听证会的转录文本。随后,下载并解析了这些HTML文件,通过清理HTML结构并提取主要文本进行后处理。使用OpenAI的GPT-4模型,从新闻文章中提取结构化摘要(元数据),包括听证会的主要议题、参与者和他们的观点。最后,将所有信息合并到一个JSONL文件中,形成最终的数据集。
特点
PublicHearingBR数据集包含206个样本,每个样本包括一个公共听证会转录文本、一篇新闻文章和元数据,这些元数据将观点与文章中提到的个人联系起来。转录文本通常包含数十页,有时超过一百页,而新闻文章平均约为627字,压缩率约为96%。数据集的独特之处在于其专注于长文档的摘要,填补了葡萄牙语领域在长文档摘要数据集方面的空白,并提供了经过手动验证的摘要。
使用方法
PublicHearingBR数据集可用于多种任务,包括从长文档中提取主要参与者的相关观点、使用元数据编写新闻文章,以及直接使用转录文本生成新闻文章。数据集还支持自然语言推理(NLI)任务,通过手动注释的数据集,研究人员可以评估和开发基于大型语言模型的摘要系统,并探讨如何识别生成摘要中的幻觉。
背景与挑战
背景概述
PublicHearingBR数据集由巴西国会众议院发布,旨在支持葡萄牙语长文档摘要任务。该数据集由Leandro Carísio Fernandes等人创建,包含巴西国会众议院公开听证会的转录文本,配以新闻文章和结构化摘要,涵盖参与听证会的个人及其陈述或观点。这一数据集的推出填补了葡萄牙语长文档摘要领域的空白,为研究人员提供了一个宝贵的资源,以开发和评估基于葡萄牙语的长文档摘要系统。
当前挑战
PublicHearingBR数据集面临的挑战主要集中在长文档摘要的复杂性上。首先,听证会转录文本通常长达数十页,甚至超过百页,这要求摘要系统具备高效处理大量信息的能力。其次,转录文本中个人的观点可能分散在不同部分,增加了提取和整合相关信息的难度。此外,听证会涉及的主题多样,从社会争议问题到高度专业化的议题,要求摘要系统能够准确捕捉和概括不同领域的关键信息。最后,构建过程中需要确保摘要的准确性和完整性,避免信息遗漏或误解。
常用场景
经典使用场景
PublicHearingBR数据集的经典使用场景在于其针对巴西葡萄牙语长文档的摘要生成任务。该数据集包含了巴西众议院公开听证会的转录文本,配以新闻文章和结构化摘要,涵盖了参与听证会的个人及其陈述或观点。这一设计使得研究人员能够开发和评估葡萄牙语长文档摘要系统,特别是在处理高压缩率和大文本分散信息的情况下。
衍生相关工作
PublicHearingBR数据集的发布催生了一系列相关研究工作,特别是在葡萄牙语长文档摘要和自然语言推理领域。基于该数据集,研究人员开发了混合摘要系统,并探讨了使用大语言模型进行摘要评估的新方法。此外,数据集中的标注数据为自然语言推理任务提供了新的测试基准,促进了葡萄牙语NLI系统的发展。这些衍生工作不仅丰富了葡萄牙语自然语言处理的研究内容,也为其他语言的长文档摘要研究提供了参考。
数据集最近研究
最新研究方向
在自然语言处理领域,PublicHearingBR数据集的最新研究方向主要集中在长文档摘要和自然语言推理任务上。该数据集由巴西众议院公开听证会的转录文本组成,旨在支持葡萄牙语长文档摘要系统的发展和评估。研究者们不仅关注于开发高效的摘要生成模型,还探讨了如何通过大型语言模型(LLMs)来评估摘要质量,特别是如何检测生成的摘要中的幻觉现象。此外,该数据集还被用于自然语言推理任务,进一步推动了葡萄牙语在文本理解和生成方面的研究。
相关研究论文
- 1PublicHearingBR: A Brazilian Portuguese Dataset of Public Hearing Transcripts for Summarization of Long Documents巴西众议院, 巴西坎皮纳斯州立大学, 巴西卡里里联邦大学 · 2024年
以上内容由遇见数据集搜集并总结生成



