five

nepal_news_en_data

收藏
github2025-09-16 更新2025-09-17 收录
下载链接:
https://github.com/geshan/nepal_news_en_data
下载链接
链接失效反馈
官方服务:
资源简介:
包含2021年至2025年9月中旬尼泊尔英文新闻的数据集,存储在MySQL数据库中,包含超过19.2万条新闻推文记录

This dataset encompasses English-language news from Nepal, covering the period from 2021 to mid-September 2025. It is stored in a MySQL database and contains more than 192,000 news tweet records.
创建时间:
2025-09-16
原始信息汇总

数据集概述

基本信息

  • 数据集名称:nepal_news_en_data
  • 数据内容:尼泊尔英文新闻
  • 时间范围:2021年至2025年9月中旬
  • 数据来源:https://x.com/nepal_news_en

数据规模

  • 数据量:192,000+条记录
  • 存储方式:MySQL数据库
  • 数据库名:nnen
  • 表名:tweets

技术细节

  • 数据库类型:MySQL
  • 访问端口:3306
  • 默认凭据:用户名root,密码rootpassword

查询示例

  • 统计总记录数:select count(*) from tweets;
  • 获取最新5条记录:select * from tweets order by created_at desc limit 5;

运行环境

  • 依赖工具:Docker和Docker Compose
  • 启动命令docker-compose up -d
  • 数据库访问方式:通过容器内执行MySQL客户端进行查询
搜集汇总
数据集介绍
main_image_url
构建方式
在新闻数据挖掘领域,nepal_news_en_data通过自动化采集系统持续聚合尼泊尔英文媒体内容。该数据集采用Docker容器化技术构建MySQL数据库存储架构,以时间序列方式系统收录2021年至2025年9月中旬的新闻推文数据,确保数据采集的连续性与完整性。数据库采用标准化表结构设计,通过持续爬取社交媒体平台的公开信息,最终形成包含超过19.2万条结构化记录的新闻语料库。
特点
该数据集显著特征体现在其地域性与语言特异性方面,专注于尼泊尔地区英文新闻的全面覆盖。数据内容具有显著的时间跨度优势,完整呈现近五年新闻动态演变轨迹。每条记录包含创建时间、文本内容等结构化字段,支持基于时间维度的趋势分析。数据集采用关系型数据库存储方式,既保证数据一致性又提供灵活的SQL查询接口,为研究者提供多维度的数据分析可能。
使用方法
研究者可通过Docker-Compose快速部署本地数据库环境,在端口3306建立连接后即可访问nnen数据库。使用标准MySQL客户端执行查询语句,支持按时间排序、关键词筛选等操作模式。典型应用场景包括执行数量统计、时间序列分析以及内容特征提取等研究任务。通过组合SQL查询条件,用户可以灵活提取特定时间段或内容特征的新闻数据,为自然语言处理和社会学研究提供数据支撑。
背景与挑战
背景概述
在数字媒体与自然语言处理交叉领域,尼泊尔英语新闻数据集(nepal_news_en_data)由数据采集技术团队于2021年构建,持续更新至2025年。该数据集专注于汇集尼泊尔地区英文媒体的新闻内容,旨在支持跨文化语境下的信息抽取、舆情分析与低资源语言处理研究。通过系统化采集推特平台公开数据,它为南亚地区多语言社会动态分析提供了关键语料基础,对 Computational Social Science 和低资源语言模型优化具有显著学术价值。
当前挑战
该数据集核心解决低资源语言地区新闻信息的结构化提取与时效性分析挑战,具体包括非标准化英语变体的语义解析、文化特定实体的识别,以及多主题新闻的分类粒度问题。构建过程中面临动态网络数据采集的完整性保障、社交媒体噪声过滤,以及高频率更新导致的数据一致性维护等工程技术难题,需平衡自动化采集与人工验证之间的效率矛盾。
常用场景
经典使用场景
在自然语言处理与计算社会科学交叉领域,该数据集为研究尼泊尔英语媒体生态提供了重要资源。学者们常利用其分析新闻话题演变趋势,追踪特定事件在媒体中的呈现方式,以及探索社交媒体内容与传统新闻的互动关系。通过时间序列分析,研究者能够揭示信息传播模式与社会动态之间的内在联系。
衍生相关工作
基于该数据集衍生的经典工作包括尼泊尔突发事件检测算法、跨语言新闻分类模型以及南亚地区虚假信息传播追踪系统。这些研究不仅推动了低资源语言NLP技术的发展,还催生了多个针对南亚媒体的深度分析框架,为后续的区域性媒体研究奠定了方法论基础。
数据集最近研究
最新研究方向
在自然语言处理与区域研究交叉领域,尼泊尔英语新闻数据集为低资源语言地区的媒体分析提供了重要支撑。当前研究聚焦于利用该数据集开展跨语言情感分析与事件检测,特别是在南亚地缘政治动荡与气候灾害频发的背景下,学者们正通过时序建模追踪公共舆论演变规律。该数据源不仅助力揭示非西方语境的新闻传播机制,更为构建适应性更强的多语言预训练模型提供了实证基础,对促进数字人文领域的学术合作具有显著意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作