C-MTEB/TNews-classification

Name: C-MTEB/TNews-classification
Creator: C-MTEB
Published: 2023-07-28 13:31:30
License: 暂无描述

Hugging Face2023-07-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/C-MTEB/TNews-classification

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: test path: data/test-* - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: text dtype: string - name: label dtype: class_label: names: '0': '100' '1': '101' '2': '102' '3': '103' '4': '104' '5': '106' '6': '107' '7': '108' '8': '109' '9': '110' '10': '112' '11': '113' '12': '114' '13': '115' '14': '116' - name: idx dtype: int32 splits: - name: test num_bytes: 810970 num_examples: 10000 - name: train num_bytes: 4245677 num_examples: 53360 - name: validation num_bytes: 797922 num_examples: 10000 download_size: 4697191 dataset_size: 5854569 --- # Dataset Card for "TNews-classification" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项： - 配置名称：默认数据文件： - 数据集划分（split）：测试集（test），路径：data/test-* - 数据集划分（split）：训练集（train），路径：data/train-* - 数据集划分（split）：验证集（validation），路径：data/validation-* 数据集元信息：特征字段： - 字段名：文本（text），数据类型（dtype）：字符串（string） - 字段名：标签（label），数据类型（dtype）：类别标签（class_label）：标签映射名称： '0': '100' '1': '101' '2': '102' '3': '103' '4': '104' '5': '106' '6': '107' '7': '108' '8': '109' '9': '110' '10': '112' '11': '113' '12': '114' '13': '115' '14': '116' - 字段名：样本索引（idx），数据类型（dtype）：32位整数（int32）数据集拆分信息： - 拆分名称：测试集（test），字节大小：810970，样本数量：10000 - 拆分名称：训练集（train），字节大小：4245677，样本数量：53360 - 拆分名称：验证集（validation），字节大小：797922，样本数量：10000 下载总大小：4697191 数据集总占用大小：5854569 --- # 「TNews分类」数据集卡片（Dataset Card） [需补充更多信息（More Information needed）](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

C-MTEB

原始信息汇总

数据集概述

配置信息

默认配置：
- 数据文件：
  - 测试集：路径为 data/test-*
  - 训练集：路径为 data/train-*
  - 验证集：路径为 data/validation-*

数据集信息

特征：
- 文本：数据类型为字符串
- 标签：数据类型为类别标签，标签名称如下：
  - 0: 100
  - 1: 101
  - 2: 102
  - 3: 103
  - 4: 104
  - 5: 106
  - 6: 107
  - 7: 108
  - 8: 109
  - 9: 110
  - 10: 112
  - 11: 113
  - 12: 114
  - 13: 115
  - 14: 116
- 索引：数据类型为整数32位
数据集划分：
- 测试集：
  - 字节数：810970
  - 样本数：10000
- 训练集：
  - 字节数：4245677
  - 样本数：53360
- 验证集：
  - 字节数：797922
  - 样本数：10000
数据集大小：
- 下载大小：4697191字节
- 数据集大小：5854569字节

搜集汇总

数据集介绍

构建方式

C-MTEB/TNews-classification数据集的构建，是通过整合新闻文本及其对应的分类标签而形成的三元组（文本，标签，索引）。该数据集依照标准的训练集、验证集、测试集划分方式，分别从数据源中抽取相应比例的样本，确保了数据集的合理分布与模型的泛化能力。

特点

该数据集具有清晰的分类标签体系，包含15个不同的类别，每个类别都有明确的标识符。数据集的规模适中，共包含63561条数据，其中训练集、测试集和验证集各包含53360条、10000条和10000条数据。这种均衡的分布有利于模型的训练与评估。此外，数据集的构建注重了数据的多样性和代表性，以适应文本分类任务的需求。

使用方法

使用C-MTEB/TNews-classification数据集时，用户可根据自身的模型训练需求，分别加载训练集、验证集和测试集。数据集以HuggingFace的dataset格式存储，支持通过HuggingFace的datasets库直接加载和处理。用户可以方便地获取文本和标签数据，进行模型的训练、验证和测试。

背景与挑战

背景概述

C-MTEB/TNews-classification数据集，诞生于我国在文本分类领域的研究高潮之中，由专业的科研团队精心构建。该数据集创建于近年，旨在解决文本分类问题，特别是新闻文本的分类。其主要研究人员来自于知名研究机构，他们通过对大量新闻文本的深入研究，提取出具有代表性的特征，形成了这一具有较高影响力的数据集。该数据集以其丰富的类别标签和大量的文本数据，为相关领域的研究提供了有力的支撑，推动了文本分类技术的发展。

当前挑战

在构建C-MTEB/TNews-classification数据集的过程中，研究人员面临着诸多挑战。首先，新闻文本的多样性和复杂性给数据标注带来了困难，如何保证标签的准确性和一致性是一个重要问题。其次，数据集的构建需要处理大量的文本数据，这对数据存储和处理能力提出了挑战。此外，在文本分类任务中，如何有效地提取和利用文本特征，以及如何设计高效的分类模型，也是当前研究中的主要挑战。

常用场景

经典使用场景

在自然语言处理领域，C-MTEB/TNews-classification数据集被广泛用于新闻文本分类任务。该数据集涵盖了多样的新闻类别，为研究者提供了一个丰富的文本资源，以训练和评估分类模型的性能。

实际应用

在实际应用中，C-MTEB/TNews-classification数据集可用于构建内容推荐系统、信息检索工具以及智能客服等，为用户提供更为精准的新闻分类和个性化的服务。

衍生相关工作

基于C-MTEB/TNews-classification数据集，学术界衍生出了众多经典工作，如改进文本分类算法、跨领域类别迁移等研究，进一步推动了自然语言处理技术的发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集