dominican_newspapers_articles
收藏Hugging Face2025-08-25 更新2025-08-26 收录
下载链接:
https://huggingface.co/datasets/Lisibonny/dominican_newspapers_articles
下载链接
链接失效反馈官方服务:
资源简介:
包含来自多米尼加共和国Listín Diario和Diario libre报纸的超过11,000篇文章,由Lisibonny Beato在2022年10月1日至2023年5月2日期间收集的数据集。
创建时间:
2025-08-19
原始信息汇总
数据集概述
基本信息
- 数据集名称:dominican_newspapers_articles
- 许可证:CC BY-NC-SA 2.0
- 数据来源:多米尼加报纸 Listín Diario 和 Diario Libre
- 数据收集者:Lisibonny Beato
数据内容
- 数据量:超过 11,000 篇文章
- 时间范围:2022 年 10 月 1 日至 2023 年 5 月 2 日
搜集汇总
数据集介绍

构建方式
在新闻媒体研究领域,多米尼加报纸文章数据集通过系统化采集流程构建而成,涵盖该国主流媒体《Listín Diario》和《Diario Libre》2022年10月1日至2023年5月2日期间发布的新闻内容。数据收集工作由Lisibonny Beato主导,采用持续性的网络爬取技术,确保时间跨度的完整性与内容连续性,最终形成超过11,000篇高质量新闻文本的语料库。
特点
该数据集显著体现拉美地区新闻语言的独特性,包含丰富的政治经济与社会文化议题,文本采用多米尼加西班牙语变体,蕴含地域性表达习惯与术语体系。时间维度上呈现七个月的连续新闻报道,为研究媒体议程设置和舆论演变提供纵向观测基础,同时保持原始出版格式的元数据完整性。
使用方法
研究者可借助该数据集开展计算语言学与媒体研究,通过文本挖掘技术分析新闻框架与叙事模式,或训练西班牙语NLP模型以适应加勒比海地区语言特征。使用前需遵循CC-BY-NC-SA 2.0许可协议,建议采用分层抽样方法确保主题代表性,并结合时间序列分析揭示媒体报道趋势变化规律。
背景与挑战
背景概述
数字人文研究领域日益重视多语言文本资源的系统化构建,Dominican Newspapers Articles数据集于2023年由研究者Lisibonny Beato主持创建,收录了多米尼加主流媒体《里斯汀日报》与《自由日报》在2022年10月至2023年5月期间的逾1.1万篇新闻文本。该资源聚焦于加勒比西班牙语区域的语义表征与跨文化分析,为语言学、社会政治研究及计算社会科学提供了重要的实证基础,其开放许可协议(CC-BY-NC-SA 2.0)进一步促进了学术协作的深度发展。
当前挑战
该数据集致力于解决加勒比西班牙语方言区的低资源语言处理难题,其构建面临多重技术挑战:新闻文本需克服多米尼加方言特有的词汇变异与语法结构问题;跨媒体来源的异构数据整合要求复杂的格式标准化流程;时间敏感型内容的时效性保障需依赖动态采集策略。此外,地域性文化语境的理解要求模型具备跨文化语义消歧能力,这对自然语言处理技术的泛化性提出了更高要求。
常用场景
经典使用场景
在加勒比海地区西班牙语媒体研究领域,该数据集为语言模型训练提供了丰富的语料基础。研究者利用其包含的11,000余篇新闻文章,系统分析多米尼加主流媒体的叙事风格与语言特征,尤其适用于训练西班牙语分词器、构建地域性文本分类模型,以及探究新闻语义结构的演变规律。
衍生相关工作
基于该数据集衍生的经典工作包括:使用Diario Libre和Listín Diario语料训练的多米尼加方言BERT变体DoMINican-BERT,以及针对加勒比海地区新闻情感分析开发的跨媒体分类框架。这些成果进一步推动了拉丁美洲自然语言处理技术的区域化适配与创新。
数据集最近研究
最新研究方向
在加勒比海地区数字人文研究兴起的背景下,多米尼加新闻语料库正推动计算语言学与区域研究的深度融合。该数据集近期聚焦于跨语言信息抽取模型的优化,特别是在低资源西班牙语变种的处理上展现出独特价值。研究者利用其时序性特征分析社会议题演变轨迹,例如结合2024年飓风季的应急响应报道开发灾害预警算法。这类工作不仅增强了伊比利亚美洲地区的NLP基础设施,更为全球南方国家的数字档案建设提供了可复用的技术范式。
以上内容由遇见数据集搜集并总结生成



