hastasiemprepresidente

Hugging Face2024-10-01 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/ljcamargo/hastasiemprepresidente

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含墨西哥总统安德烈斯·曼努埃尔·洛佩斯·奥布拉多尔（2018-2024）所有'mañaneras'新闻发布会和公共活动的速记版本。数据集以jsonl格式结构化为对话，包含不同配置和发言者角色。内容包括不同过滤器的对话和原始文件，以及用于发言者角色和内容统计的标准化工具。

创建时间：

2024-10-01

原始信息汇总

Hasta Siempre Presidente

概述

名称: Hasta Siempre Presidente
语言: 西班牙语
标签: amlo, politica, mexico, politics, lopezobrador, mañaneras, mananeras, conferencias, estenográficas, méxico
许可证: cc-by-4.0
描述: 该数据集包含墨西哥总统Andrés Manuel López Obrador在2018-2024年间的所有“mañaneras”新闻发布会和公共活动的速记版本。数据集经过自动化获取、标准化、清理和结构化为对话格式，适用于语言模型训练或新闻研究。

数据文件

配置:
- 名称: default
- 数据文件:
  - 分割: train
  - 路径: phi3_dialogs_mainspeakers_qa_pairs.jsonl

内容

角色定义

Presidente: Andrés Manuel López Obrador
Sistema: 包括叙述者、提示者、主持人、视频和速记版本中的音乐片段
Otros: 其他官员和发言人，不包括观众和记者
Interlocutores: 观众或记者向总统或其他官员提问

对话文件

所有发言人的对话:
- 文件: phi3_dialogs_allspeakers_unfiltered.jsonl
主要发言人的对话（无其他官员）:
- 文件: phi3_dialogs_mainspeakers_unfiltered.jsonl
- 文件: phi3_dialogs_mainspeakers_filtered.jsonl
- 文件: phi3_dialogs_mainspeakers_qa_pairs.jsonl
- 文件: phi3_dialogs_mainspeakers_qa_strict.jsonl

原始文件

所有发言人的对话:
- 文件: posts_processed.jsonl
主要发言人的对话（无其他官员）:
- 文件: posts_qa_processed.jsonl
未标准化的页面下载:
- 文件: posts.jsonl

统计和标准化

发言人及内容统计:
- 文件: posts_stats.py
发言人相似性（用于标准化）:
- 文件: posts_similarities.py

搜集汇总

数据集介绍

构建方式

Hasta Siempre Presidente数据集构建于墨西哥总统安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔（2018-2024）的每日新闻发布会和公共活动的速记版本。数据来源于墨西哥总统官方网站，通过自动化工具获取，经过标准化处理、清洗，并结构化为JSONL格式的对话数据。为了区分不同发言者的角色，数据集通过统计分析识别了官方人员、观众和提问记者，确保数据的准确性和可用性。

特点

该数据集的特点在于其丰富的对话内容，涵盖了总统、系统（包括主持人、视频等）、其他官员以及提问者之间的互动。数据集提供了多种格式的对话文件，包括未过滤的完整对话、过滤后的主要发言者对话，以及按问答对严格排序的对话。这些多样化的数据格式为语言模型的训练和新闻研究提供了极大的灵活性。

使用方法

Hasta Siempre Presidente数据集可用于训练语言模型，尤其是针对问答系统的开发。研究人员可以通过加载JSONL格式的文件，提取特定角色的对话内容，或直接使用已结构化的问答对进行模型训练。此外，数据集还可用于新闻学研究，分析总统与公众之间的互动模式，或探讨政治传播中的语言特征。

背景与挑战

背景概述

Hasta Siempre Presidente数据集聚焦于墨西哥总统安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔（AMLO）在2018年至2024年期间举行的所有“mañaneras”新闻发布会和公共活动的速记版本。该数据集由LJ Camargo等研究人员创建，旨在通过自动化的方式从墨西哥总统府官方网站获取数据，并进行标准化、清理和结构化处理，最终以JSONL格式呈现。该数据集的核心研究问题在于如何通过自然语言处理技术，分析政治人物的公开演讲和问答互动，从而为语言模型的训练和新闻学研究提供支持。该数据集在政治话语分析、新闻学研究和语言模型训练等领域具有重要影响力。

当前挑战

Hasta Siempre Presidente数据集在构建过程中面临多重挑战。首先，数据获取的自动化过程需要处理大量非结构化文本，确保数据的完整性和准确性。其次，速记文本的标准化和清理工作复杂，尤其是在区分不同发言者角色（如总统、系统、其他官员和记者）时，需通过统计分析和相似性计算来确保角色分配的准确性。此外，数据集的构建还需解决问答对的精确匹配问题，尤其是在严格顺序和问答对分组的情况下，确保对话的逻辑连贯性。这些挑战不仅涉及技术层面的数据处理，还需应对政治文本特有的复杂性和多样性。

常用场景

经典使用场景

在政治学和新闻学领域，Hasta Siempre Presidente数据集被广泛应用于分析墨西哥总统安德烈斯·曼努埃尔·洛佩斯·奥夫拉多尔的公开演讲和新闻发布会。通过该数据集，研究人员可以深入探讨总统的演讲风格、政策立场以及与公众的互动方式。数据集的结构化对话格式特别适合用于训练自然语言处理模型，以识别和理解政治话语中的关键信息。

解决学术问题

Hasta Siempre Presidente数据集解决了政治话语分析中的多个关键问题。首先，它提供了大量真实的对话数据，使得研究人员能够系统地研究总统与记者、公众之间的互动模式。其次，数据集中的角色标注功能帮助区分不同发言者的身份，从而支持更精确的对话分析。此外，数据集的问答对格式为研究政治问答系统提供了宝贵的资源，推动了自动问答技术的发展。

衍生相关工作

基于Hasta Siempre Presidente数据集，许多相关研究工作得以展开。例如，研究人员开发了基于深度学习的政治话语分析模型，用于预测总统的政策倾向和公众反应。此外，该数据集还催生了一系列关于自动问答系统的研究，特别是在政治领域的应用。这些研究不仅推动了自然语言处理技术的发展，还为政治学和新闻学提供了新的研究工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集