five

community-datasets/telugu_news

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/telugu_news
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为TeluguNews,包含泰卢固语(Telugu)的新闻文章及其对应的主题标签(如商业、社论、娱乐、国家、体育)。这些文章来源于每日的Andhra Jyoti报纸。数据集可用于构建分类和语言模型。数据集结构包括两个CSV文件(训练集和测试集),每个文件包含五列:sno(ID)、date(发布日期)、heading(文章标题)、body(文章内容)和topic(主题)。数据集的创建过程涉及从泰卢固语报纸网站抓取文章,并通过BM25和tf-idf方法进行数据检索。
提供机构:
community-datasets
原始信息汇总

数据集描述

数据集概述

该数据集包含泰卢固语新闻文章及其相应的主题标签(商业、社论、娱乐、国家、体育),这些文章来自每日安得拉·吉约蒂报。该数据集可用于构建分类和语言模型。

支持的任务和排行榜

  • 多类别分类
  • 主题分类
  • 语言模型

语言

  • 泰卢固语(TE),印度

数据集结构

数据实例

包含两个CSV文件(训练集和测试集),每行包含五个字段(sno, date, heading, body, topic)。

数据字段

  • sno: 编号
  • date: 新闻文章的发布日期
  • heading: 文章标题
  • body: 文章内容
  • topic: 文章主题,包括以下类别(商业、社论、娱乐、国家、体育)

数据分割

  • 训练集:包含17312个样本,69400234字节
  • 测试集:包含4329个样本,17265514字节

数据集创建

数据来源

数据来源于泰卢固语报纸网站Andhra Jyoti的档案文章。通过创建一组查询,并结合BM25和tf-idf方法获取相应的真实答案。

附加信息

数据集策展人

  • Sudalai Rajkumar
  • Anusha Motamarri

引用信息

@InProceedings{kaggle:dataset, title = {Telugu News - Natural Language Processing for Indian Languages}, authors={Sudalai Rajkumar, Anusha Motamarri}, year={2019} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作