five

taishi-i/awesome-japanese-nlp-classification-dataset

收藏
Hugging Face2023-09-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/taishi-i/awesome-japanese-nlp-classification-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于识别GitHub仓库描述是否与日本自然语言处理(NLP)相关,标签分为相关(1)和不相关(0)。训练数据为2022年之前的仓库描述,测试数据为2023年的仓库描述。正例数据来自特定资源,负例数据通过GitHub API收集并经过人工确认。数据集特征包括主观标注、混合的英文和日文描述以及不平衡的标签分布。该数据集适用于评估模型在真实世界中的表现,并且仅用于研究目的。
提供机构:
taishi-i
原始信息汇总

数据集概述

该数据集用于识别GitHub仓库描述是否与日本自然语言处理(NLP)相关。标签分为**“相关(1)”和“不相关(0)”**。

问题设置

  • 训练数据:2022年之前的仓库描述
  • 测试数据:2023年的仓库描述
  • 目标:检测与日本NLP相关的仓库

数据收集

  • 正例:截至2023年9月9日,列在"awesome-japanese-nlp-resources"中的仓库
  • 负例:从GitHub API收集并视觉确认
  • 注意:标注过程具有主观性

数据集特征

  • 主观标注
  • 混合英日文描述
  • 标签分布不平衡

这些数据集特征反映了现实世界的挑战,非常适合评估模型。

数据集结构

python DatasetDict({ train: Dataset({ features: [label, text, url, created_at], num_rows: 5496 }) validation: Dataset({ features: [label, text, url, created_at], num_rows: 400 }) test: Dataset({ features: [label, text, url, created_at], num_rows: 856 }) })

基线模型

基线模型使用bert-base-multilingual-cased训练。F1-score对于标签1在该任务中很重要。

标签 精确率 召回率 F1-Score 支持
0 0.98 0.99 0.98 796
1 0.79 0.70 0.74 60
准确率 0.97 856
宏平均 0.89 0.84 0.86 856
加权平均 0.96 0.97 0.97 856

数据集统计

标签分布

数据集 标签0 (%) 标签1 (%)
训练 92.59 7.41
验证 95.75 4.25
测试 92.99 7.01

样本示例

  • 相关样本: python { "label": 1, "text": "JGLUE: Japanese General Language Understanding Evaluation for huggingface datasets", "url": "https://github.com/shunk031/huggingface-datasets_JGLUE", "created_at": "2023-02-25T04:33:03Z" }

  • 不相关样本: python { "label": 0, "text": "Official repository of FaceLit: Neural 3D Relightable Faces (CVPR 2023)", "url": "https://github.com/apple/ml-facelit", "created_at": "2023-04-03T22:47:29Z" }

文本统计

数据集 文本数量 平均长度 最小长度 最大长度
训练 5496 58.05 2.0 609.0
验证 400 54.33 8.0 226.0
测试 856 58.85 3.0 341.0

语言比例

数据集 英语 (%) 日语 (%)
训练 89.34 10.66
验证 82.00 18.00
测试 83.18 16.82

时间范围

数据集 开始日期 结束日期
训练 2008-02-11 22:55:26+00:00 2022-09-30 19:45:09+00:00
验证 2022-10-01 06:02:56+00:00 2022-12-31 12:12:41+00:00
测试 2023-01-01 06:15:03+00:00 2023-08-21 15:30:53+00:00
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作