taishi-i/awesome-japanese-nlp-classification-dataset

Name: taishi-i/awesome-japanese-nlp-classification-dataset
Creator: taishi-i
Published: 2023-09-09 11:09:04
License: 暂无描述

Hugging Face2023-09-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/taishi-i/awesome-japanese-nlp-classification-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于识别GitHub仓库描述是否与日本自然语言处理（NLP）相关，标签分为相关（1）和不相关（0）。训练数据为2022年之前的仓库描述，测试数据为2023年的仓库描述。正例数据来自特定资源，负例数据通过GitHub API收集并经过人工确认。数据集特征包括主观标注、混合的英文和日文描述以及不平衡的标签分布。该数据集适用于评估模型在真实世界中的表现，并且仅用于研究目的。

提供机构：

taishi-i

原始信息汇总

数据集概述

该数据集用于识别GitHub仓库描述是否与日本自然语言处理（NLP）相关。标签分为**“相关（1）”和“不相关（0）”**。

问题设置

训练数据：2022年之前的仓库描述
测试数据：2023年的仓库描述
目标：检测与日本NLP相关的仓库

数据收集

正例：截至2023年9月9日，列在"awesome-japanese-nlp-resources"中的仓库
负例：从GitHub API收集并视觉确认
注意：标注过程具有主观性

数据集特征

主观标注
混合英日文描述
标签分布不平衡

这些数据集特征反映了现实世界的挑战，非常适合评估模型。

数据集结构

python DatasetDict({ train: Dataset({ features: [label, text, url, created_at], num_rows: 5496 }) validation: Dataset({ features: [label, text, url, created_at], num_rows: 400 }) test: Dataset({ features: [label, text, url, created_at], num_rows: 856 }) })

基线模型

基线模型使用bert-base-multilingual-cased训练。F1-score对于标签1在该任务中很重要。

标签	精确率	召回率	F1-Score	支持
0	0.98	0.99	0.98	796
1	0.79	0.70	0.74	60
准确率			0.97	856
宏平均	0.89	0.84	0.86	856
加权平均	0.96	0.97	0.97	856

数据集统计

标签分布

数据集	标签0 (%)	标签1 (%)
训练	92.59	7.41
验证	95.75	4.25
测试	92.99	7.01

样本示例

相关样本： python { "label": 1, "text": "JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets", "url": "https://github.com/shunk031/huggingface-datasets_JGLUE", "created_at": "2023-02-25T04:33:03Z" }
不相关样本： python { "label": 0, "text": "Official repository of FaceLit: Neural 3D Relightable Faces (CVPR 2023)", "url": "https://github.com/apple/ml-facelit", "created_at": "2023-04-03T22:47:29Z" }

文本统计

数据集	文本数量	平均长度	最小长度	最大长度
训练	5496	58.05	2.0	609.0
验证	400	54.33	8.0	226.0
测试	856	58.85	3.0	341.0

语言比例

数据集	英语 (%)	日语 (%)
训练	89.34	10.66
验证	82.00	18.00
测试	83.18	16.82

时间范围

数据集	开始日期	结束日期
训练	2008-02-11 22:55:26+00:00	2022-09-30 19:45:09+00:00
验证	2022-10-01 06:02:56+00:00	2022-12-31 12:12:41+00:00
测试	2023-01-01 06:15:03+00:00	2023-08-21 15:30:53+00:00

5,000+

优质数据集

54 个

任务类型

进入经典数据集