Shwetasss/HinduTamil-News-Articles-Dataset

Name: Shwetasss/HinduTamil-News-Articles-Dataset
Creator: Shwetasss
Published: 2024-02-28 18:14:16
License: 暂无描述

Hugging Face2024-02-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Shwetasss/HinduTamil-News-Articles-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Hindu Tamil新闻网站抓取的泰米尔语新闻文章，每篇文章包括标题、作者、城市、发布日期和正文。数据通过网页抓取技术收集，并经过去重、处理缺失值、过滤无关信息和格式化日期等步骤进行清洗和预处理。数据集的结构包括标题、作者、城市、发布日期和正文五个字段。该数据集可用于文本分析、自然语言处理和情感分析等研究。

提供机构：

Shwetasss

原始信息汇总

HinduTamil News Articles Dataset

概述

该数据集包含从Hindu Tamil新闻网站上抓取的泰米尔语新闻文章。每篇文章包括标题、作者、城市、发布日期和正文。

动机

该数据集旨在为研究和分析目的提供全面的泰米尔语新闻文章集合。

数据来源和收集方法

数据集中的数据来自Hindu Tamil新闻网站（https://www.hindutamil.in/news/tamilnadu/）。数据通过网络爬虫技术收集：

使用Python的requests库发送HTTP GET请求，获取网页的HTML内容。
使用BeautifulSoup库解析HTML内容，提取文章的URL、标题、作者、发布日期和正文。
通过迭代爬取多个页面的数据，每个页面通常显示一系列文章，并提取每个文章的URL，然后访问每个URL以提取详细信息。
使用try-except块处理错误和超时，确保爬取过程顺利进行。

数据清洗和预处理

收集的数据集经过多个清洗和预处理步骤，以确保适合分析和建模：

根据Published列识别并删除重复条目。
根据上下文删除包含NaN值的行，例如在City或Author列中。
过滤掉不相关的信息，如作者评论、页脚文本和广告，仅保留新闻文章的主要内容。
将发布日期提取并格式化为标准日期时间格式，以确保一致性。

数据结构

数据集的结构如下：

Title：新闻文章的标题
Author：新闻文章的作者
City：新闻文章中提到的城市
Published：新闻文章的发布日期和时间
Text：新闻文章的主要内容

样本条目

Title	Author	City	Published	Text
ரூ.1.10 கோடி மான நஷ்டஈடு கோரி	ஆர்.பாலசரவணக்குமார்	சென்னை	2024-02-26 17:02:00	சென்னை: அதிமுக முன்னாள் நிர்வாகி...
தமிழ்நாடு காங்கிரஸ் கமிட்டியில்	செய்திப்பிரிவு	சென்னை	2024-02-26 16:52:00	சென்னை: தமிழ்நாடு காங்கிரஸ் கமிட்டிக்கு இரண்டு துணைத்...
பரந்தூர் விமான நிலைய எதிர்ப்பு போராட்டம்	இரா.ஜெயப்பிரகாஷ்	காஞ்சிபுரம்	2024-02-26 16:30:00	காஞ்சிபுரம்: காஞ்சிபுரம் அருகே பரந்தூர் விமான நிலையத்துக்கு எதிராக...

数据使用

用户可以使用此数据集进行泰米尔语新闻文章的文本分析、自然语言处理和情感分析。

许可证

该数据集在MIT许可证下提供。

引用

如果您使用此数据集，请引用为： Sukhtankar, Shweta. (2024). Tamil News Articles Dataset.

搜集汇总

数据集介绍

构建方式

在泰米尔语新闻分析领域，数据集的构建往往依赖于对权威新闻源的系统性采集。本数据集通过Python的requests库向Hindu Tamil新闻网站发送HTTP GET请求，获取网页的HTML内容，随后利用BeautifulSoup库解析页面结构，精准提取每篇文章的标题、作者、城市、发布日期及正文等关键信息。采集过程采用迭代式爬取策略，遍历网站的多级页面以覆盖广泛文章，并通过异常处理机制确保数据获取的稳定性与完整性，最终将非结构化的网页内容转化为结构化的表格数据。

使用方法

研究人员可借助该数据集开展泰米尔语的自然语言处理探索，例如利用文本分类模型对新闻主题进行自动归类，或通过摘要生成技术提炼文章核心内容。在情感分析方面，该数据集能够支持对泰米尔语新闻情绪倾向的量化研究。使用前需遵循MIT许可协议，并建议通过引用规范标注数据来源，以促进学术成果的可靠追溯与共享。

背景与挑战

背景概述

在泰米尔语自然语言处理研究领域，高质量、大规模且结构化的新闻文本语料库长期处于稀缺状态，制约了相关语言模型与算法的发展。为应对这一挑战，研究者Shweta Sandeep Sukhtankar于2024年创建了HinduTamil新闻文章数据集。该数据集系统性地采集自印度知名新闻媒体Hindu Tamil的官方网站，涵盖了标题、作者、城市、发布日期及正文等结构化字段，旨在为泰米尔语的文本分类、摘要生成及情感分析等核心研究任务提供坚实的资源基础。其构建不仅填补了特定语种数字资源的空白，也为深入分析南亚区域的社会文化动态提供了宝贵的数据视角。

当前挑战

该数据集致力于解决泰米尔语新闻文本自动处理中的关键挑战，包括在复杂语言形态与丰富方言变体下的准确分类与摘要生成。在构建过程中，挑战主要源于原始网络数据的非结构化特性：需通过精细的网页解析技术从HTML中提取并规整信息，同时有效剔除广告、评论等噪声内容；数据清洗环节需处理重复条目、缺失值及日期格式标准化等问题，以确保语料的纯净度与一致性。这些技术障碍的克服，是构建高质量、机器可读泰米尔语料库的核心前提。

常用场景

经典使用场景

在泰米尔语自然语言处理领域，该数据集为文本分类和摘要生成任务提供了丰富的语料基础。研究者常利用其结构化的新闻文章，训练模型识别泰米尔语新闻的主题类别，或自动生成简洁的摘要，以应对低资源语言处理中的挑战。

解决学术问题

该数据集有效缓解了泰米尔语作为低资源语言在学术研究中数据匮乏的困境。它为语言模型预训练、跨语言迁移学习等前沿课题提供了实证支持，助力学者探索非拉丁语系语言的表征学习机制，推动计算语言学在多元文化语境下的均衡发展。

实际应用

在实际应用中，该数据集可服务于泰米尔语地区的媒体监测与舆情分析系统。通过自动化处理新闻内容，机构能够实时追踪社会动态、识别热点议题，并为区域化信息服务平台提供内容理解与推荐的技术支撑。

数据集最近研究