WildGuardTestJP
收藏魔搭社区2025-12-05 更新2025-09-27 收录
下载链接:
https://modelscope.cn/datasets/sbintuitions/WildGuardTestJP
下载链接
链接失效反馈官方服务:
资源简介:
# WildGuardTestJP
WildGuardTestJPは、日本語ガードレールモデルの評価データセットです。
本データセットは、元データのWildGuardTestの敵対的性質を維持するように高品質に翻訳されました。
## データセット概要
- **言語**: 日本語
- **総サンプル数**: 1,725件
- **用途**: 日本語ガードレールモデル評価
- **ベースデータセット**: WildGuardTest
## 翻訳プロセス
多段階の翻訳改善戦略を採用しました。
1. **ベース翻訳**: 拒否なしの完全なカバレッジを確保するためSeed-X-PPO-7Bモデルを使用
2. **品質改善**: 以下の優先順位で高品質な代替翻訳で不良翻訳を置換:
- gpt-oss-120b(優先度1)
- Qwen2.5-72B-Instruct(優先度2)
- gemma-3-27b-it(優先度3)
詳細はテックブログを参照ください。
https://www.sbintuitions.co.jp/blog/entry/2025/09/16/160351
## 引用
```
@dataset{bertolissi2025wildguardtestjp,
title={Japanese WildGuard Test},
author={Ryo Bertolissi and Pride Kavumba and Huy H. Nguyen and Koki Wataoka},
year={2025},
url={https://huggingface.co/datasets/sbintuitions/japanese_wildguard_test}
}
```
## ライセンス
このデータセットはODC-BY(Open Data Commons Attribution License)の下で提供されます。
Contains information from "WildGuardMix", which is made available under the ODC Attribution License (ODC-BY 1.0).
# WildGuardTestJP
WildGuardTestJP是面向日语内容安全护栏模型的评估数据集。本数据集在保留原始数据集WildGuardTest的对抗性属性的前提下,经高质量翻译构建完成。
## 数据集概览
- **语言**: 日语
- **总样本数**: 1725条
- **用途**: 日语内容安全护栏模型评估
- **基准数据集**: WildGuardTest
## 翻译流程
本数据集采用多阶段翻译优化策略。
1. **基础翻译阶段**:为确保无遗漏的完整覆盖范围,采用Seed-X-PPO-7B模型完成初始翻译
2. **质量优化阶段**:按照以下优先级,使用高质量替代翻译替换不合格翻译:
- gpt-oss-120b(优先级1)
- Qwen2.5-72B-Instruct(优先级2)
- gemma-3-27b-it(优先级3)
详细信息请参阅技术博客:https://www.sbintuitions.co.jp/blog/entry/2025/09/16/160351
## 引用
@dataset{bertolissi2025wildguardtestjp,
title={Japanese WildGuard Test},
author={Ryo Bertolissi and Pride Kavumba and Huy H. Nguyen and Koki Wataoka},
year={2025},
url={https://huggingface.co/datasets/sbintuitions/japanese_wildguard_test}
}
## 授权协议
本数据集基于ODC-BY(开放数据通用署名许可协议,Open Data Commons Attribution License)发布。
本数据集包含源自“WildGuardMix”的信息,该信息依据ODC署名许可协议(ODC-BY 1.0)发布。
提供机构:
maas
创建时间:
2025-09-17



