dmontaner/autotrain-data-test1
收藏Hugging Face2023-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dmontaner/autotrain-data-test1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为项目test1自动处理的AutoTrain数据集,主要用于文本分类任务。数据集语言为英语,包含两个字段:text(文本内容)和target(分类标签,类别包括Mixed_feelings, Negative, Positive, not-Tamil, unknown_state)。数据集分为训练集和验证集,分别包含12593和3151个样本。
---
语言:
- 英语(en)
任务类别:
- 文本分类(text-classification)
---
# 项目test1的AutoTrain数据集
## 数据集描述
本数据集已由AutoTrain针对test1项目完成自动预处理。
### 语言说明
本数据集语言的BCP-47代码为en。
## 数据集结构
### 数据样例
本数据集的一条样例如下:
json
[
{
"text": "Konjam porunga Vishwasam trailor varatum appo therium yaaru gethu nu",
"target": 0
},
{
"text": "Last 2 dialogues bigil ku vecha mathri oru feel....",
"target": 4
}
]
### 数据集字段(特征)
本数据集包含以下字段(亦可称为特征):
json
{
"text": "Value(dtype='string', id=None)",
"target": "ClassLabel(names=['混合情感', '负面', '正面', '非泰米尔语', '未知状态'], id=None)"
}
### 数据集划分
本数据集划分为训练集与验证集,划分规模如下:
| 划分名称 | 样本数量 |
| ------------ | ------------------- |
| train | 12593 |
| valid | 3151 |
提供机构:
dmontaner
原始信息汇总
数据集概述
数据集名称
AutoTrain Dataset for project: test1
语言
- BCP-47代码: en
数据集结构
数据实例
- 示例数据包含以下字段:
text: 文本内容target: 目标分类,包括Mixed_feelings, Negative, Positive, not-Tamil, unknown_state
数据集字段
text: 字符串类型target: 分类标签,包括Mixed_feelings, Negative, Positive, not-Tamil, unknown_state
数据集分割
- 训练集: 12593样本
- 验证集: 3151样本



