community-datasets/telugu_news

Name: community-datasets/telugu_news
Creator: community-datasets
Published: 2024-01-18 11:17:01
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/telugu_news

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为TeluguNews，包含泰卢固语（Telugu）的新闻文章及其对应的主题标签（如商业、社论、娱乐、国家、体育）。这些文章来源于每日的Andhra Jyoti报纸。数据集可用于构建分类和语言模型。数据集结构包括两个CSV文件（训练集和测试集），每个文件包含五列：sno（ID）、date（发布日期）、heading（文章标题）、body（文章内容）和topic（主题）。数据集的创建过程涉及从泰卢固语报纸网站抓取文章，并通过BM25和tf-idf方法进行数据检索。

提供机构：

community-datasets

原始信息汇总

数据集描述

数据集概述

该数据集包含泰卢固语新闻文章及其相应的主题标签（商业、社论、娱乐、国家、体育），这些文章来自每日安得拉·吉约蒂报。该数据集可用于构建分类和语言模型。

支持的任务和排行榜

多类别分类
主题分类
语言模型

语言

泰卢固语（TE），印度

数据集结构

数据实例

包含两个CSV文件（训练集和测试集），每行包含五个字段（sno, date, heading, body, topic）。

数据字段

sno: 编号
date: 新闻文章的发布日期
heading: 文章标题
body: 文章内容
topic: 文章主题，包括以下类别（商业、社论、娱乐、国家、体育）

数据分割

训练集：包含17312个样本，69400234字节
测试集：包含4329个样本，17265514字节

数据集创建

数据来源

数据来源于泰卢固语报纸网站Andhra Jyoti的档案文章。通过创建一组查询，并结合BM25和tf-idf方法获取相应的真实答案。

附加信息

数据集策展人

Sudalai Rajkumar
Anusha Motamarri

引用信息

@InProceedings{kaggle:dataset, title = {Telugu News - Natural Language Processing for Indian Languages}, authors={Sudalai Rajkumar, Anusha Motamarri}, year={2019} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集