AgoraSpeech

Name: AgoraSpeech
Creator: 塞萨洛尼基亚里士多德大学信息学院数据与网络科学实验室
Published: 2025-01-10 02:17:59
License: 暂无描述

arXiv2025-01-10 更新2025-01-15 收录

下载链接：

https://doi.org/10.5281/zenodo.13957176

下载链接

链接失效反馈

官方服务：

资源简介：

AgoraSpeech是一个高质量的政治演讲数据集，由塞萨洛尼基亚里士多德大学的研究团队创建，包含171篇希腊2023年大选期间的政治演讲。数据集涵盖了六个政党的演讲内容，每篇演讲按段落进行了详细的注释，适用于六种自然语言处理任务，包括文本分类、主题识别、情感分析、命名实体识别、极化和民粹主义检测。数据集通过ChatGPT生成初步注释，并经过人工验证，确保了注释的准确性和可靠性。该数据集为政治和社会科学家、记者以及数据科学家提供了丰富的信息来源，可用于自然语言处理模型的基准测试和微调。数据集的应用领域广泛，旨在解决政治话语分析中的复杂问题，如修辞策略、意识形态立场和情感倾向的识别。

AgoraSpeech is a high-quality political speech dataset developed by a research team at the Aristotle University of Thessaloniki. It includes 171 political speeches delivered during the 2023 Greek general election, covering the speech content of six political parties. Each speech has been meticulously annotated at the paragraph level, and the dataset is applicable to six natural language processing (NLP) tasks, namely text classification, topic identification, sentiment analysis, named entity recognition (NER), polarization detection, and populism detection. Preliminary annotations were generated using ChatGPT and manually verified to ensure their accuracy and reliability. This dataset serves as a valuable information resource for political and social scientists, journalists, and data scientists, and can be utilized for benchmarking and fine-tuning NLP models. With a wide range of application scenarios, it aims to address complex issues in political discourse analysis, such as the recognition of rhetorical strategies, ideological positions, and emotional tendencies.

提供机构：

塞萨洛尼基亚里士多德大学信息学院数据与网络科学实验室

创建时间：

2025-01-10

搜集汇总

数据集介绍

构建方式

AgoraSpeech数据集的构建采用了‘混合智能’方法，结合了自动化与人工验证的双重步骤。首先，利用ChatGPT对171篇希腊2023年国家选举期间的政党领袖演讲进行初步标注，涵盖文本分类、主题识别、情感分析、命名实体识别、极化与民粹主义检测等六项自然语言处理任务。随后，通过数据记者和政治学专家进行详尽的人工验证，确保标注的准确性与一致性。这一过程不仅提升了数据质量，还为政治话语分析提供了可靠的基准。

特点

AgoraSpeech数据集的特点在于其多维度的标注信息与高质量的人工验证。数据集包含171篇演讲，共计5,279个段落和717,718个单词，每个段落均经过六项NLP任务的标注，总计31,674条标注。其独特之处在于结合了ChatGPT的自动化标注与专家的人工验证，确保了标注的准确性与深度。此外，数据集还提供了丰富的元数据，如演讲者、演讲地点和时间等，为研究者提供了全面的上下文信息。

使用方法

AgoraSpeech数据集的使用方法广泛，适用于政治学、新闻学、数据科学等多个领域的研究与应用。研究者可以利用该数据集进行政治话语的多维度分析，如情感趋势、极化程度、民粹主义表现等。数据记者可通过数据集挖掘选举期间的沟通策略，而数据科学家则可将其用于自然语言处理模型的训练与优化。此外，数据集还提供了交互式可视化工具，便于用户探索数据并生成直观的分析结果。

背景与挑战

背景概述

AgoraSpeech数据集由希腊塞萨洛尼基亚里士多德大学的数据与网络科学实验室于2025年创建，旨在为政治话语分析提供一个高质量、多标注的基准数据集。该数据集包含2023年希腊全国选举期间六位政党领袖的171篇演讲，涵盖了文本分类、主题识别、情感分析、命名实体识别、极化检测和民粹主义检测等六项自然语言处理任务。通过结合ChatGPT生成的初步标注和人工验证的两步标注方法，AgoraSpeech为政治学、新闻学和数据科学领域的研究者提供了丰富的分析资源，推动了政治话语分析的深度研究。

当前挑战

AgoraSpeech数据集在构建过程中面临多重挑战。首先，政治话语的复杂性要求标注者具备深厚的领域知识，以确保对修辞策略、意识形态背景等细微差别的准确捕捉。其次，尽管ChatGPT在初步标注中表现出色，但其在复杂任务如主题分类和极化检测中的准确性仍有待提升，尤其是在处理政治话语中的语境敏感性和主观性时。此外，数据集的构建依赖于多源数据的整合，包括音频、视频转录和翻译，这一过程可能导致信息丢失或失真，特别是在情感分析和语调识别等任务中。最后，段落级别的分析可能忽略了演讲的整体语境，影响了极化与民粹主义检测的准确性。

常用场景

经典使用场景

AgoraSpeech数据集在政治话语分析领域具有广泛的应用，尤其是在自然语言处理（NLP）任务中。该数据集包含171篇希腊国家选举期间的政党领袖演讲，涵盖了文本分类、主题识别、情感分析、命名实体识别、极化检测和民粹主义检测等六项任务。通过结合ChatGPT生成的初始标注和人工验证的混合标注方法，AgoraSpeech为研究人员提供了一个高质量、多维度标注的基准数据集，适用于政治学、计算社会科学和新闻学等多个领域的研究。

衍生相关工作

AgoraSpeech数据集的发布催生了一系列相关研究，尤其是在政治话语分析与NLP技术的交叉领域。基于该数据集的研究工作包括对ChatGPT在政治话语标注任务中的性能评估、极化与民粹主义检测算法的优化，以及多语言政治话语分析框架的开发。此外，AgoraSpeech还为其他语言和政治背景下的类似数据集构建提供了方法论参考，推动了跨文化政治话语分析的研究进展。

数据集最近研究