Sakshamrzt/IndicNLP-Tamil
收藏Hugging Face2024-04-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Sakshamrzt/IndicNLP-Tamil
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于文本分类任务的泰米尔语新闻数据集。数据集包含两个分割:训练集和测试集,分别有9357和2340个样本。每个样本包含news和class两个特征,分别表示新闻文本和类别标签。
该数据集是一个用于文本分类任务的泰米尔语新闻数据集。数据集包含两个分割:训练集和测试集,分别有9357和2340个样本。每个样本包含news和class两个特征,分别表示新闻文本和类别标签。
提供机构:
Sakshamrzt
原始信息汇总
数据集概述
数据集基本信息
- 许可证: cc-by-nc-4.0
数据结构
- 配置名称: train
- 特征:
- news: 数据类型为字符串
- class: 数据类型为int64
数据划分
- 训练集: 包含9357个样本
- 测试集: 包含2340个样本
文件配置
- 配置名称: train
- 数据文件:
- 训练集文件路径: tamil-train.jsonl
- 测试集文件路径: tamil-test.jsonl
任务类别
- 文本分类
语言
- 泰米尔语 (ta)



