five

TwinDoc/template-dataset-pt

收藏
Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/TwinDoc/template-dataset-pt
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含文本数据,主要用于自然语言处理任务。数据集分为训练集、验证集和测试集,分别包含10000、100和1000个样本。每个样本包含一个文本字段,内容涉及日常生活、情感表达等。数据集的配置信息显示,文本数据以字符串形式存储,适用于文本分类、情感分析等任务。

This dataset contains text data primarily used for natural language processing tasks. The dataset is divided into training, validation, and test sets, containing 10,000, 100, and 1,000 samples respectively. Each sample includes a text field with content related to daily life, emotional expressions, etc. The configuration information indicates that the text data is stored as strings, suitable for tasks such as text classification and sentiment analysis.
提供机构:
TwinDoc
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • text: 数据类型为字符串。

数据分割

  • 训练集:
    • 文件大小: 38,168,952 字节
    • 样本数量: 10,000
  • 验证集:
    • 文件大小: 373,317 字节
    • 样本数量: 100
  • 测试集:
    • 文件大小: 3,791,381 字节
    • 样本数量: 1000

数据集大小

  • 下载大小: 17,083,588 字节
  • 总大小: 42,333,650 字节

配置

  • 默认配置:
    • 训练集路径: data/train-*
    • 验证集路径: data/validation-*
    • 测试集路径: data/test-*

数据集示例

  • 文本示例:
    • 包含多段文本,涉及日常生活、情感描述等内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作