community-datasets/telugu_news
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/telugu_news
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为TeluguNews,包含泰卢固语(Telugu)的新闻文章及其对应的主题标签(如商业、社论、娱乐、国家、体育)。这些文章来源于每日的Andhra Jyoti报纸。数据集可用于构建分类和语言模型。数据集结构包括两个CSV文件(训练集和测试集),每个文件包含五列:sno(ID)、date(发布日期)、heading(文章标题)、body(文章内容)和topic(主题)。数据集的创建过程涉及从泰卢固语报纸网站抓取文章,并通过BM25和tf-idf方法进行数据检索。
提供机构:
community-datasets
原始信息汇总
数据集描述
数据集概述
该数据集包含泰卢固语新闻文章及其相应的主题标签(商业、社论、娱乐、国家、体育),这些文章来自每日安得拉·吉约蒂报。该数据集可用于构建分类和语言模型。
支持的任务和排行榜
- 多类别分类
- 主题分类
- 语言模型
语言
- 泰卢固语(TE),印度
数据集结构
数据实例
包含两个CSV文件(训练集和测试集),每行包含五个字段(sno, date, heading, body, topic)。
数据字段
- sno: 编号
- date: 新闻文章的发布日期
- heading: 文章标题
- body: 文章内容
- topic: 文章主题,包括以下类别(商业、社论、娱乐、国家、体育)
数据分割
- 训练集:包含17312个样本,69400234字节
- 测试集:包含4329个样本,17265514字节
数据集创建
数据来源
数据来源于泰卢固语报纸网站Andhra Jyoti的档案文章。通过创建一组查询,并结合BM25和tf-idf方法获取相应的真实答案。
附加信息
数据集策展人
- Sudalai Rajkumar
- Anusha Motamarri
引用信息
@InProceedings{kaggle:dataset, title = {Telugu News - Natural Language Processing for Indian Languages}, authors={Sudalai Rajkumar, Anusha Motamarri}, year={2019} }



