five

peru-news

收藏
Hugging Face2025-04-21 更新2025-04-22 收录
下载链接:
https://huggingface.co/datasets/Villaitech/peru-news
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了具有相关元数据的文档集合,分为不同的训练子集。每个文档都有唯一的标识符,文本内容以及包括作者、图片链接、发布日期、来源、摘要、标题和URL等信息的元数据。
创建时间:
2025-04-19
搜集汇总
数据集介绍
main_image_url
构建方式
在新闻媒体领域,数据集的构建往往依赖于对多源信息的系统化整合。peru-news数据集通过结构化爬取秘鲁新闻媒体的数字内容,采用分日期配置的方式组织数据。其核心字段包含新闻文档全文及元数据层,后者涵盖作者、发布日期、来源等七类结构化信息,并通过唯一ID实现数据溯源。数据以JSON格式存储,按日划分的存储策略既保留了时间维度特性,也便于增量更新。
特点
该数据集展现出鲜明的时空特征与多模态属性。时间跨度上精确到日粒度,覆盖2025年4月连续三天的新闻样本,每日样本量稳定在700条左右。内容维度上除原始文档外,创新性地嵌入了摘要、题图链接等增强信息。独特的双层数据结构设计,既保持原始文本完整性,又通过标准化元数据支持多维分析,特别适合研究新闻传播时效性或媒体内容演化规律。
使用方法
研究者可通过HuggingFace平台直接加载分日期或全量配置,默认配置提供三日数据的独立访问接口。典型应用场景包括:调用document字段进行NLP任务训练,结合publish_date实现时间序列分析,或利用metadata中的source字段完成媒体偏见研究。数据加载后可直接转换为DataFrame结构,其标准化的字段命名体系确保了与主流机器学习框架的无缝对接。对于跨日对比研究,建议采用default配置以获取完整时序上下文。
背景与挑战
背景概述
Peru-News数据集作为聚焦秘鲁新闻领域的语料库,由专业机构于2025年构建,旨在为自然语言处理领域提供高质量的西班牙语新闻文本资源。该数据集收录了涵盖政治、经济、社会等多领域的新闻报道,每篇文档均附带作者、发布时间、来源等结构化元数据,为研究者分析拉丁美洲媒体语言特征和社会动态提供了重要基础。其时序性的数据组织方式特别适合研究新闻话题的演变规律,对跨文化传播研究和区域国别分析具有独特价值。
当前挑战
该数据集面临的核心挑战体现在语义理解和数据质量两个维度。西班牙语方言变体处理要求模型能识别秘鲁本地特有的语言表达习惯,这对预训练语言模型的泛化能力提出更高要求。元数据完整性方面,部分新闻条目的作者信息缺失可能影响文本溯源的可信度。时序数据对齐问题则体现在不同日期采集的新闻量存在波动,可能对时间序列分析造成偏差。多源异构数据的标准化处理也是关键挑战,需要平衡不同媒体机构的写作风格差异与数据一致性。
常用场景
经典使用场景
在自然语言处理领域,peru-news数据集以其丰富的新闻文本和元数据结构,成为研究西班牙语文本处理的经典资源。该数据集特别适用于训练和评估语言模型在新闻分类、情感分析和主题建模等任务中的表现。通过精确的时间标注和多源新闻内容,研究者能够深入分析新闻文本的时效性和地域性特征。
实际应用
在实际应用中,该数据集被广泛应用于构建西班牙语新闻推荐系统和舆情监测平台。媒体机构利用其时间序列特征开发新闻趋势预测工具,而政府部门则借助其多源新闻内容分析社会舆论走向。数据集中完整的元数据链为新闻真实性验证提供了关键的技术支持。
衍生相关工作
基于peru-news数据集,学界已衍生出多个具有影响力的研究工作,包括西班牙语新闻标题生成模型、秘鲁媒体偏见检测框架等。该数据集还支撑了多项跨语言对比研究,促进了西班牙语与其它语种新闻文本处理技术的交叉融合。部分研究团队进一步扩展了其时间覆盖范围,形成了更完备的南美新闻语料库。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作