NTCIR14-QALab-PoliInfo-FormalRunDataset

github2023-10-04 更新2024-05-31 收录

下载链接：

https://github.com/kmr-y/NTCIR14-QALab-PoliInfo-FormalRunDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于NTCIR14 QALab-PoliInfo的正式运行，包含三个任务：分割任务、摘要任务和分类任务。数据集基于地方议会会议记录和议会通讯制作，旨在提供用于分析和处理政治信息的工具和数据。

This dataset is utilized for the official operation of NTCIR14 QALab-PoliInfo, encompassing three tasks: segmentation, summarization, and classification. It is constructed from local council meeting records and council communications, aiming to furnish tools and data for the analysis and processing of political information.

创建时间：

2019-01-15

原始信息汇总

数据集概述

数据集名称

NTCIR14 QALab-PoliInfo Formal Run 数据集

数据集内容

该数据集包含三个主要任务的数据：

Segmentation Task
- 目的：确定引用二次信息时，对应的一次信息的范围。
- 输入：包含提问和回答的“发言引用对”及相应的“议会会议记录”。
- 输出：为理解引用所需阅读的发言范围（“开始行”和“结束行”）。
Summarization Task
- 目的：考虑议会提问和回答的结构，生成不扭曲发言者意图的摘要。
- 输入：包含发言的“议会会议记录”、摘要的“字数限制”。
- 输出：传达发言者意图的“摘要”。
Classification Task
- 目的：通过比较课题文和会议记录中的发言，分类相关性、事实验证可能性和立场，以找到有根据的意见。
- 输入：描述政策的“课题文”和会议记录中的“发言文”。
- 输出：三个子类别的分类：“相关性（有/无）”、“事实验证（可能/不可能）”、“立场（支持/不支持/两者都不是）”。

数据集构建

使用“地方议会会议记录”和“议会通讯”构建。

样本数据

Segmentation Task：提供了一个JSON样本，包含ID、地区、日期、会议、主要话题、次要话题、提问者和回答者信息，以及提问和回答的开始和结束行。
Summarization Task：提供了一个JSON样本，包含ID、地区、日期、会议、发言者、主要话题、摘要内容和字数限制。
Classification Task：提供了一个JSON样本，包含ID、话题、发言内容以及相关性、事实验证可能性和立场的分类结果。

参考文献

木村泰知, 渋木英潔, 乙武北斗内田ゆず, 高丸圭一, 阪本浩太郎, 石下円香, 三田村照子, 神門典子, NTCIR-14 QA Lab-PoliInfoの Formal Run Dataset の構築, 言語処理学会第25回年次大会(NLP2019),2019年3月.

搜集汇总

数据集介绍

构建方式

NTCIR14-QALab-PoliInfo-FormalRunDataset的构建基于日本地方议会的会议记录和议会通讯。该数据集通过提取和整理这些公开的政治文本，生成了三个主要任务的数据：分割任务、摘要任务和分类任务。每个任务的数据均经过精心标注，确保其适用于自然语言处理的研究和应用。数据集的构建过程严格遵循学术标准，确保了数据的准确性和可靠性。

特点

该数据集的特点在于其专注于政治领域的文本分析，涵盖了从地方议会的会议记录中提取的丰富信息。数据集不仅提供了原始文本，还包含了详细的标注信息，如发言的起始和结束行、摘要的生成要求以及分类任务的标签。这些特点使得该数据集在政治文本分析、信息抽取和自然语言处理领域具有重要的研究价值。

使用方法

NTCIR14-QALab-PoliInfo-FormalRunDataset的使用方法主要围绕其三个核心任务展开。对于分割任务，用户可以通过输入问题和答辩论对，结合会议记录，确定引用的具体范围。摘要任务则要求用户根据发言内容和字数限制，生成符合发言者意图的摘要。分类任务则需要用户将政策描述与会议记录中的发言进行对比，进行相关性、事实可验证性和立场分类。数据集的使用需结合具体的自然语言处理工具和算法，以实现高效的分析和应用。

背景与挑战

背景概述

NTCIR14-QALab-PoliInfo-FormalRunDataset是由日本国立情报学研究所（NII）在2018年11月至12月期间举办的NTCIR-14会议中推出的一个数据集。该数据集主要基于地方议会会议记录和议会通讯，旨在支持自然语言处理领域中的三个核心任务：分割、摘要和分类。这些任务的设计旨在帮助研究人员更好地理解和分析政治文本中的复杂信息结构。该数据集的创建不仅推动了政治文本分析技术的发展，还为政策制定和公共事务研究提供了重要的数据支持。

当前挑战

NTCIR14-QALab-PoliInfo-FormalRunDataset在构建和应用过程中面临多重挑战。首先，分割任务要求精确识别议会记录中的发言范围，这对文本的上下文理解和语义分析提出了高要求。其次，摘要任务需要在保持发言者意图的同时进行简洁的文本压缩，这对模型的生成能力和语言理解能力提出了挑战。最后，分类任务涉及对政策文本的复杂分类，包括相关性、事实核查性和立场判断，这对模型的逻辑推理和知识整合能力提出了高要求。此外，数据集的构建过程中，如何从非结构化的议会记录中提取结构化信息，并确保数据的准确性和一致性，也是一个重要的技术挑战。

常用场景

经典使用场景

NTCIR14-QALab-PoliInfo-FormalRunDataset 主要用于政治信息处理领域的研究，特别是在地方议会会议记录的分析中。该数据集通过提供详细的会议记录和相关的问答对，支持研究者进行文本分割、摘要生成和分类任务。这些任务旨在从复杂的政治对话中提取关键信息，帮助理解政策讨论的细节和背景。

解决学术问题

该数据集解决了政治文本分析中的多个关键问题，如如何从长篇大论中精确提取相关信息、如何生成不歪曲原意的摘要以及如何对政治立场进行分类。这些问题对于提高政治文本的自动处理能力具有重要意义，尤其是在信息过载的现代社会中，能够有效提升政策分析和决策支持的效率。

衍生相关工作

基于该数据集，研究者已经开发了多种文本处理模型，如基于深度学习的文本分割和摘要生成算法。这些模型不仅提高了政治文本分析的准确性，也为其他领域的文本处理提供了参考。此外，该数据集还促进了政治立场分类技术的发展，为政治科学和公共政策研究提供了新的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集