five

C-MTEB/TNews-classification

收藏
Hugging Face2023-07-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/C-MTEB/TNews-classification
下载链接
链接失效反馈
官方服务:
资源简介:
--- configs: - config_name: default data_files: - split: test path: data/test-* - split: train path: data/train-* - split: validation path: data/validation-* dataset_info: features: - name: text dtype: string - name: label dtype: class_label: names: '0': '100' '1': '101' '2': '102' '3': '103' '4': '104' '5': '106' '6': '107' '7': '108' '8': '109' '9': '110' '10': '112' '11': '113' '12': '114' '13': '115' '14': '116' - name: idx dtype: int32 splits: - name: test num_bytes: 810970 num_examples: 10000 - name: train num_bytes: 4245677 num_examples: 53360 - name: validation num_bytes: 797922 num_examples: 10000 download_size: 4697191 dataset_size: 5854569 --- # Dataset Card for "TNews-classification" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 配置项: - 配置名称:默认 数据文件: - 数据集划分(split):测试集(test),路径:data/test-* - 数据集划分(split):训练集(train),路径:data/train-* - 数据集划分(split):验证集(validation),路径:data/validation-* 数据集元信息: 特征字段: - 字段名:文本(text),数据类型(dtype):字符串(string) - 字段名:标签(label),数据类型(dtype):类别标签(class_label): 标签映射名称: '0': '100' '1': '101' '2': '102' '3': '103' '4': '104' '5': '106' '6': '107' '7': '108' '8': '109' '9': '110' '10': '112' '11': '113' '12': '114' '13': '115' '14': '116' - 字段名:样本索引(idx),数据类型(dtype):32位整数(int32) 数据集拆分信息: - 拆分名称:测试集(test),字节大小:810970,样本数量:10000 - 拆分名称:训练集(train),字节大小:4245677,样本数量:53360 - 拆分名称:验证集(validation),字节大小:797922,样本数量:10000 下载总大小:4697191 数据集总占用大小:5854569 --- # 「TNews分类」数据集卡片(Dataset Card) [需补充更多信息(More Information needed)](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
C-MTEB
原始信息汇总

数据集概述

配置信息

  • 默认配置
    • 数据文件
      • 测试集:路径为 data/test-*
      • 训练集:路径为 data/train-*
      • 验证集:路径为 data/validation-*

数据集信息

  • 特征

    • 文本:数据类型为字符串
    • 标签:数据类型为类别标签,标签名称如下:
      • 0: 100
      • 1: 101
      • 2: 102
      • 3: 103
      • 4: 104
      • 5: 106
      • 6: 107
      • 7: 108
      • 8: 109
      • 9: 110
      • 10: 112
      • 11: 113
      • 12: 114
      • 13: 115
      • 14: 116
    • 索引:数据类型为整数32位
  • 数据集划分

    • 测试集
      • 字节数:810970
      • 样本数:10000
    • 训练集
      • 字节数:4245677
      • 样本数:53360
    • 验证集
      • 字节数:797922
      • 样本数:10000
  • 数据集大小

    • 下载大小:4697191字节
    • 数据集大小:5854569字节
搜集汇总
数据集介绍
main_image_url
构建方式
C-MTEB/TNews-classification数据集的构建,是通过整合新闻文本及其对应的分类标签而形成的三元组(文本,标签,索引)。该数据集依照标准的训练集、验证集、测试集划分方式,分别从数据源中抽取相应比例的样本,确保了数据集的合理分布与模型的泛化能力。
特点
该数据集具有清晰的分类标签体系,包含15个不同的类别,每个类别都有明确的标识符。数据集的规模适中,共包含63561条数据,其中训练集、测试集和验证集各包含53360条、10000条和10000条数据。这种均衡的分布有利于模型的训练与评估。此外,数据集的构建注重了数据的多样性和代表性,以适应文本分类任务的需求。
使用方法
使用C-MTEB/TNews-classification数据集时,用户可根据自身的模型训练需求,分别加载训练集、验证集和测试集。数据集以HuggingFace的dataset格式存储,支持通过HuggingFace的datasets库直接加载和处理。用户可以方便地获取文本和标签数据,进行模型的训练、验证和测试。
背景与挑战
背景概述
C-MTEB/TNews-classification数据集,诞生于我国在文本分类领域的研究高潮之中,由专业的科研团队精心构建。该数据集创建于近年,旨在解决文本分类问题,特别是新闻文本的分类。其主要研究人员来自于知名研究机构,他们通过对大量新闻文本的深入研究,提取出具有代表性的特征,形成了这一具有较高影响力的数据集。该数据集以其丰富的类别标签和大量的文本数据,为相关领域的研究提供了有力的支撑,推动了文本分类技术的发展。
当前挑战
在构建C-MTEB/TNews-classification数据集的过程中,研究人员面临着诸多挑战。首先,新闻文本的多样性和复杂性给数据标注带来了困难,如何保证标签的准确性和一致性是一个重要问题。其次,数据集的构建需要处理大量的文本数据,这对数据存储和处理能力提出了挑战。此外,在文本分类任务中,如何有效地提取和利用文本特征,以及如何设计高效的分类模型,也是当前研究中的主要挑战。
常用场景
经典使用场景
在自然语言处理领域,C-MTEB/TNews-classification数据集被广泛用于新闻文本分类任务。该数据集涵盖了多样的新闻类别,为研究者提供了一个丰富的文本资源,以训练和评估分类模型的性能。
实际应用
在实际应用中,C-MTEB/TNews-classification数据集可用于构建内容推荐系统、信息检索工具以及智能客服等,为用户提供更为精准的新闻分类和个性化的服务。
衍生相关工作
基于C-MTEB/TNews-classification数据集,学术界衍生出了众多经典工作,如改进文本分类算法、跨领域类别迁移等研究,进一步推动了自然语言处理技术的发展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作