five

WildGuardTestJP

收藏
魔搭社区2025-12-05 更新2025-09-27 收录
下载链接:
https://modelscope.cn/datasets/sbintuitions/WildGuardTestJP
下载链接
链接失效反馈
官方服务:
资源简介:
# WildGuardTestJP WildGuardTestJPは、日本語ガードレールモデルの評価データセットです。 本データセットは、元データのWildGuardTestの敵対的性質を維持するように高品質に翻訳されました。 ## データセット概要 - **言語**: 日本語 - **総サンプル数**: 1,725件 - **用途**: 日本語ガードレールモデル評価 - **ベースデータセット**: WildGuardTest ## 翻訳プロセス 多段階の翻訳改善戦略を採用しました。 1. **ベース翻訳**: 拒否なしの完全なカバレッジを確保するためSeed-X-PPO-7Bモデルを使用 2. **品質改善**: 以下の優先順位で高品質な代替翻訳で不良翻訳を置換: - gpt-oss-120b(優先度1) - Qwen2.5-72B-Instruct(優先度2) - gemma-3-27b-it(優先度3) 詳細はテックブログを参照ください。 https://www.sbintuitions.co.jp/blog/entry/2025/09/16/160351 ## 引用 ``` @dataset{bertolissi2025wildguardtestjp, title={Japanese WildGuard Test}, author={Ryo Bertolissi and Pride Kavumba and Huy H. Nguyen and Koki Wataoka}, year={2025}, url={https://huggingface.co/datasets/sbintuitions/japanese_wildguard_test} } ``` ## ライセンス このデータセットはODC-BY(Open Data Commons Attribution License)の下で提供されます。 Contains information from "WildGuardMix", which is made available under the ODC Attribution License (ODC-BY 1.0).

# WildGuardTestJP WildGuardTestJP是面向日语内容安全护栏模型的评估数据集。本数据集在保留原始数据集WildGuardTest的对抗性属性的前提下,经高质量翻译构建完成。 ## 数据集概览 - **语言**: 日语 - **总样本数**: 1725条 - **用途**: 日语内容安全护栏模型评估 - **基准数据集**: WildGuardTest ## 翻译流程 本数据集采用多阶段翻译优化策略。 1. **基础翻译阶段**:为确保无遗漏的完整覆盖范围,采用Seed-X-PPO-7B模型完成初始翻译 2. **质量优化阶段**:按照以下优先级,使用高质量替代翻译替换不合格翻译: - gpt-oss-120b(优先级1) - Qwen2.5-72B-Instruct(优先级2) - gemma-3-27b-it(优先级3) 详细信息请参阅技术博客:https://www.sbintuitions.co.jp/blog/entry/2025/09/16/160351 ## 引用 @dataset{bertolissi2025wildguardtestjp, title={Japanese WildGuard Test}, author={Ryo Bertolissi and Pride Kavumba and Huy H. Nguyen and Koki Wataoka}, year={2025}, url={https://huggingface.co/datasets/sbintuitions/japanese_wildguard_test} } ## 授权协议 本数据集基于ODC-BY(开放数据通用署名许可协议,Open Data Commons Attribution License)发布。 本数据集包含源自“WildGuardMix”的信息,该信息依据ODC署名许可协议(ODC-BY 1.0)发布。
提供机构:
maas
创建时间:
2025-09-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作