sakusakumura/wikipedia-2023-11-ja-cleaned-w-label

Name: sakusakumura/wikipedia-2023-11-ja-cleaned-w-label
Creator: sakusakumura
Published: 2024-06-10 03:32:18
License: 暂无描述

Hugging Face2024-06-10 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/sakusakumura/wikipedia-2023-11-ja-cleaned-w-label

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练文本质量评分预测模型。数据来源于neody/wikipedia-2023-11-ja-cleaned，采样方法包括：1. 选取文章长度在前0.001%以内的样本；2. 选取特征（评分）值大于等于0.68的样本作为负样本（negative），共5000件；3. 从不符合上述条件的样本中选取5000件作为正样本（positive）。

提供机构：

sakusakumura

原始信息汇总