oyxy2019/BertTokenizer_THUCNews_10000_to_lm_datasets

Name: oyxy2019/BertTokenizer_THUCNews_10000_to_lm_datasets
Creator: oyxy2019
Published: 2023-04-23 06:02:18
License: 暂无描述

Hugging Face2023-04-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/oyxy2019/BertTokenizer_THUCNews_10000_to_lm_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集从seamew/THUCNewsText数据集中选取了10000条数据，用于微调IDEA-CCNL/Wenzhong2.0-GPT2-110M-BertTokenizer-chinese模型。数据集包含输入ID、token类型ID、注意力掩码和标签等特征，并分为训练集、验证集和测试集。

提供机构：

oyxy2019

原始信息汇总

数据集概述

BertTokenizer_THUCNews_10000_to_lm_datasets

5,000+

优质数据集

54 个

任务类型

进入经典数据集