C-MTEB/TNews-classification
收藏Hugging Face2023-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/C-MTEB/TNews-classification
下载链接
链接失效反馈官方服务:
资源简介:
---
configs:
- config_name: default
data_files:
- split: test
path: data/test-*
- split: train
path: data/train-*
- split: validation
path: data/validation-*
dataset_info:
features:
- name: text
dtype: string
- name: label
dtype:
class_label:
names:
'0': '100'
'1': '101'
'2': '102'
'3': '103'
'4': '104'
'5': '106'
'6': '107'
'7': '108'
'8': '109'
'9': '110'
'10': '112'
'11': '113'
'12': '114'
'13': '115'
'14': '116'
- name: idx
dtype: int32
splits:
- name: test
num_bytes: 810970
num_examples: 10000
- name: train
num_bytes: 4245677
num_examples: 53360
- name: validation
num_bytes: 797922
num_examples: 10000
download_size: 4697191
dataset_size: 5854569
---
# Dataset Card for "TNews-classification"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
配置项:
- 配置名称:默认
数据文件:
- 数据集划分(split):测试集(test),路径:data/test-*
- 数据集划分(split):训练集(train),路径:data/train-*
- 数据集划分(split):验证集(validation),路径:data/validation-*
数据集元信息:
特征字段:
- 字段名:文本(text),数据类型(dtype):字符串(string)
- 字段名:标签(label),数据类型(dtype):类别标签(class_label):
标签映射名称:
'0': '100'
'1': '101'
'2': '102'
'3': '103'
'4': '104'
'5': '106'
'6': '107'
'7': '108'
'8': '109'
'9': '110'
'10': '112'
'11': '113'
'12': '114'
'13': '115'
'14': '116'
- 字段名:样本索引(idx),数据类型(dtype):32位整数(int32)
数据集拆分信息:
- 拆分名称:测试集(test),字节大小:810970,样本数量:10000
- 拆分名称:训练集(train),字节大小:4245677,样本数量:53360
- 拆分名称:验证集(validation),字节大小:797922,样本数量:10000
下载总大小:4697191
数据集总占用大小:5854569
---
# 「TNews分类」数据集卡片(Dataset Card)
[需补充更多信息(More Information needed)](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
C-MTEB
原始信息汇总
数据集概述
配置信息
- 默认配置:
- 数据文件:
- 测试集:路径为
data/test-* - 训练集:路径为
data/train-* - 验证集:路径为
data/validation-*
- 测试集:路径为
- 数据文件:
数据集信息
-
特征:
- 文本:数据类型为字符串
- 标签:数据类型为类别标签,标签名称如下:
- 0: 100
- 1: 101
- 2: 102
- 3: 103
- 4: 104
- 5: 106
- 6: 107
- 7: 108
- 8: 109
- 9: 110
- 10: 112
- 11: 113
- 12: 114
- 13: 115
- 14: 116
- 索引:数据类型为整数32位
-
数据集划分:
- 测试集:
- 字节数:810970
- 样本数:10000
- 训练集:
- 字节数:4245677
- 样本数:53360
- 验证集:
- 字节数:797922
- 样本数:10000
- 测试集:
-
数据集大小:
- 下载大小:4697191字节
- 数据集大小:5854569字节
搜集汇总
数据集介绍

构建方式
C-MTEB/TNews-classification数据集的构建,是通过整合新闻文本及其对应的分类标签而形成的三元组(文本,标签,索引)。该数据集依照标准的训练集、验证集、测试集划分方式,分别从数据源中抽取相应比例的样本,确保了数据集的合理分布与模型的泛化能力。
特点
该数据集具有清晰的分类标签体系,包含15个不同的类别,每个类别都有明确的标识符。数据集的规模适中,共包含63561条数据,其中训练集、测试集和验证集各包含53360条、10000条和10000条数据。这种均衡的分布有利于模型的训练与评估。此外,数据集的构建注重了数据的多样性和代表性,以适应文本分类任务的需求。
使用方法
使用C-MTEB/TNews-classification数据集时,用户可根据自身的模型训练需求,分别加载训练集、验证集和测试集。数据集以HuggingFace的dataset格式存储,支持通过HuggingFace的datasets库直接加载和处理。用户可以方便地获取文本和标签数据,进行模型的训练、验证和测试。
背景与挑战
背景概述
C-MTEB/TNews-classification数据集,诞生于我国在文本分类领域的研究高潮之中,由专业的科研团队精心构建。该数据集创建于近年,旨在解决文本分类问题,特别是新闻文本的分类。其主要研究人员来自于知名研究机构,他们通过对大量新闻文本的深入研究,提取出具有代表性的特征,形成了这一具有较高影响力的数据集。该数据集以其丰富的类别标签和大量的文本数据,为相关领域的研究提供了有力的支撑,推动了文本分类技术的发展。
当前挑战
在构建C-MTEB/TNews-classification数据集的过程中,研究人员面临着诸多挑战。首先,新闻文本的多样性和复杂性给数据标注带来了困难,如何保证标签的准确性和一致性是一个重要问题。其次,数据集的构建需要处理大量的文本数据,这对数据存储和处理能力提出了挑战。此外,在文本分类任务中,如何有效地提取和利用文本特征,以及如何设计高效的分类模型,也是当前研究中的主要挑战。
常用场景
经典使用场景
在自然语言处理领域,C-MTEB/TNews-classification数据集被广泛用于新闻文本分类任务。该数据集涵盖了多样的新闻类别,为研究者提供了一个丰富的文本资源,以训练和评估分类模型的性能。
实际应用
在实际应用中,C-MTEB/TNews-classification数据集可用于构建内容推荐系统、信息检索工具以及智能客服等,为用户提供更为精准的新闻分类和个性化的服务。
衍生相关工作
基于C-MTEB/TNews-classification数据集,学术界衍生出了众多经典工作,如改进文本分类算法、跨领域类别迁移等研究,进一步推动了自然语言处理技术的发展和应用。
以上内容由遇见数据集搜集并总结生成



