taishi-i/awesome-japanese-nlp-classification-dataset
收藏数据集概述
该数据集用于识别GitHub仓库描述是否与日本自然语言处理(NLP)相关。标签分为**“相关(1)”和“不相关(0)”**。
问题设置
- 训练数据:2022年之前的仓库描述
- 测试数据:2023年的仓库描述
- 目标:检测与日本NLP相关的仓库
数据收集
- 正例:截至2023年9月9日,列在"awesome-japanese-nlp-resources"中的仓库
- 负例:从GitHub API收集并视觉确认
- 注意:标注过程具有主观性
数据集特征
- 主观标注
- 混合英日文描述
- 标签分布不平衡
这些数据集特征反映了现实世界的挑战,非常适合评估模型。
数据集结构
python DatasetDict({ train: Dataset({ features: [label, text, url, created_at], num_rows: 5496 }) validation: Dataset({ features: [label, text, url, created_at], num_rows: 400 }) test: Dataset({ features: [label, text, url, created_at], num_rows: 856 }) })
基线模型
基线模型使用bert-base-multilingual-cased训练。F1-score对于标签1在该任务中很重要。
| 标签 | 精确率 | 召回率 | F1-Score | 支持 |
|---|---|---|---|---|
| 0 | 0.98 | 0.99 | 0.98 | 796 |
| 1 | 0.79 | 0.70 | 0.74 | 60 |
| 准确率 | 0.97 | 856 | ||
| 宏平均 | 0.89 | 0.84 | 0.86 | 856 |
| 加权平均 | 0.96 | 0.97 | 0.97 | 856 |
数据集统计
标签分布
| 数据集 | 标签0 (%) | 标签1 (%) |
|---|---|---|
| 训练 | 92.59 | 7.41 |
| 验证 | 95.75 | 4.25 |
| 测试 | 92.99 | 7.01 |
样本示例
-
相关样本: python { "label": 1, "text": "JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets", "url": "https://github.com/shunk031/huggingface-datasets_JGLUE", "created_at": "2023-02-25T04:33:03Z" }
-
不相关样本: python { "label": 0, "text": "Official repository of FaceLit: Neural 3D Relightable Faces (CVPR 2023)", "url": "https://github.com/apple/ml-facelit", "created_at": "2023-04-03T22:47:29Z" }
文本统计
| 数据集 | 文本数量 | 平均长度 | 最小长度 | 最大长度 |
|---|---|---|---|---|
| 训练 | 5496 | 58.05 | 2.0 | 609.0 |
| 验证 | 400 | 54.33 | 8.0 | 226.0 |
| 测试 | 856 | 58.85 | 3.0 | 341.0 |
语言比例
| 数据集 | 英语 (%) | 日语 (%) |
|---|---|---|
| 训练 | 89.34 | 10.66 |
| 验证 | 82.00 | 18.00 |
| 测试 | 83.18 | 16.82 |
时间范围
| 数据集 | 开始日期 | 结束日期 |
|---|---|---|
| 训练 | 2008-02-11 22:55:26+00:00 | 2022-09-30 19:45:09+00:00 |
| 验证 | 2022-10-01 06:02:56+00:00 | 2022-12-31 12:12:41+00:00 |
| 测试 | 2023-01-01 06:15:03+00:00 | 2023-08-21 15:30:53+00:00 |



