deer-sec/deer_sec-japanese-cybersecurity-chatml-v1
收藏Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/deer-sec/deer_sec-japanese-cybersecurity-chatml-v1
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- text-generation
language:
- ja
tags:
- cybersecurity
- defensive-security
- instruction-tuning
- japanese
- safety
- chatml
size_categories:
- 10M<n<100M
library_name: datasets
configs:
- config_name: default
data_files:
- split: train
path: "train.jsonl"
---
# deer_sec-japanese-cybersecurity-chatml-v1
## 概要 (Overview)
本データセットは、高度なサイバー防御と脅威インテリジェンスに特化したインストラクション・チューニング用のデータセットです。
AlicanKiraz0様によって公開された [Cybersecurity-Dataset-Fenrir-v2.0](https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.0) を元に構築されています。
元の膨大な英語データの中から**約8.5%をランダムに抽出**し、翻訳特化モデルである `translategemma:12b-it-q8_0` を用いて高品質な日本語へ翻訳しました。その後、LLMのファインチューニング(LoRA等)にそのまま利用できるよう、厳格なデータクレンジングと整形を行っています。
## 特徴 (Key Features)
- **高品質なバイリンガルデータ**: 英語の高度な専門知識(NIST CSF、MITRE ATT&CKなど)を維持しつつ、自然な日本語での対話能力をモデルに学習させることができます。「Lateral Movement」や「Payload」などの重要なセキュリティ用語は、無理に直訳せず英語や適切なカタカナで保持しています。
- **最適化されたChatML形式**: Qwen、Gemma、Llamaなどの最新モデルで即座に学習できるよう、`system`, `user`, `assistant` の役割を明確にした標準的なChatML形式に完全に整形済みです。
- **強力な安全ガードレール**: システム(`system`)プロンプトには、ISC2倫理規定に基づく厳格なルールを組み込んでいます。ランサムウェア、マルウェア、フィッシングキット等の生成や、攻撃を助長する回答を明確に拒否し、「防御側の視点(Defense-Only)」を維持するよう安全機能が大幅に強化されています。
## データセットの構築プロセス
1. **サンプリング**: 元データセットから約8.5%をランダムに抽出。
2. **機械翻訳**: ローカル環境にて `translategemma:12b-it-q8_0` を使用し、文脈と専門用語を保護しながら翻訳。
3. **クレンジングと整形**: 翻訳時のマークダウン崩れ、エスケープ文字の異常(過剰な `\n` など)、不自然な文章の途切れを検知し、多段階のスクリプトで排除。ファインチューニングに最適なクリーンデータのみを抽出して保持しました。
## 使用上の注意と倫理規定 (Usage Guidelines and Ethics)
本データセットは教育および防御目的のために提供されています。
収録されているシステムプロンプトには、以下のルールが明示的に組み込まれています:
- ランサムウェア、ボットネット、フィッシングキット等の生成・改善の厳格な拒否。
- 不正アクセスやセキュリティ制御の回避につながる指示の拒否。
- ISC2の倫理規定に基づき、常に法を遵守し「防御第一」の原則に従うこと。
## ライセンス (License)
本データセットは元データのライセンスを継承し、**Apache License 2.0** の下で提供されています。商用利用、改変、再配布が自由に可能です。
## クレジット (Credits)
- **Original Dataset**: [AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.0](https://huggingface.co/datasets/AlicanKiraz0/Cybersecurity-Dataset-Fenrir-v2.0)
- 本データセットは、原著者の多大な貢献と素晴らしい研究データに深い敬意を払いつつ、日本のサイバーセキュリティコミュニティの発展と防衛力の向上に寄与する目的で作成されました。
## データ構造 (Data Structure)
データは以下のJSONL形式で構成されています。
```json
{
"messages": [
{
"role": "system",
"content": "高度なサイバー防御に特化したAIアシスタントとして、情報セキュリティの原則に関する正確で詳細かつ実践的なガイダンスを提供することを目的としています。...(中略)...いかなる場合においても、ランサムウェア、ワイパー、ボットネット等の生成または改善することは決してありません。そのような要求があった場合は、簡潔に謝罪し、一文で理由を説明して拒否します。"
},
{
"role": "user",
"content": "入力関連の脆弱性に対する防御に特化したキルチェーンモデルをどのように構築すべきですか?"
},
{
"role": "assistant",
"content": "SQLインジェクションやXSSなどの入力関連脆弱性に対する防御モデルを構築するには、NISTサイバーセキュリティフレームワーク(CSF)に準拠しつつ、MITRE ATT&CKの手法を組み込む必要があります..."
}
]
}
提供机构:
deer-sec



