Sakshamrzt/IndicNLP-Oriya
收藏Hugging Face2024-04-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Sakshamrzt/IndicNLP-Oriya
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于文本分类任务,包含奥里亚语(or)的新闻文本及其对应的类别标签。数据集分为训练集和测试集,训练集包含23997个样本,测试集包含6000个样本。每个样本包含两个特征:news(新闻文本,字符串类型)和class(类别标签,整数类型)。数据文件分别为oriya-train.jsonl和oriya-test.jsonl。
该数据集用于文本分类任务,包含奥里亚语(or)的新闻文本及其对应的类别标签。数据集分为训练集和测试集,训练集包含23997个样本,测试集包含6000个样本。每个样本包含两个特征:news(新闻文本,字符串类型)和class(类别标签,整数类型)。数据文件分别为oriya-train.jsonl和oriya-test.jsonl。
提供机构:
Sakshamrzt
原始信息汇总
数据集概述
数据集基本信息
- 许可证: cc-by-nc-4.0
数据集结构
- 配置名称: train
- 特征:
- news: 数据类型为字符串
- class: 数据类型为int64
数据分割
- 训练集: 包含23997个样本
- 测试集: 包含6000个样本
数据文件
- 训练数据文件:
oriya-train.jsonl - 测试数据文件:
oriya-test.jsonl
任务类别
- 文本分类
语言
- 奥里亚语



