ChineseHarm-Bench|内容审核数据集|自然语言处理数据集
收藏ChineseHarm-bench: 中文有害内容检测基准
数据集概述
- 名称: ChineseHarm-bench
- 类型: 中文有害内容检测基准
- 特点: 专业标注,覆盖6个关键有害内容类别
- 许可证: CC BY-NC 4.0
- 数据来源: 腾讯提供
核心内容
-
基准构成
- 包含知识规则库
- 提供知识增强基线模型
-
模型变体
- ChineseGuard-1.5B
- ChineseGuard-3B
- ChineseGuard-7B
-
功能支持
- 单条推理
- 批量推理(支持多NPU/GPU)
- F1分数评估
数据处理流程
- 混合知识提示生成
- 合成数据生成(使用GPT-4o)
- 数据过滤与平衡
- 知识引导训练
使用要求
- 硬件支持: 华为Ascend NPU和NVIDIA GPU
- 依赖框架: LLaMA-Factory
引用信息
bibtex @misc{liu2025chineseharmbenchchineseharmfulcontent, title={ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark}, author={Kangwei Liu et al.}, year={2025}, eprint={2506.10960}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2506.10960}, }
注意事项
- 数据已匿名化处理
- 通过机构审查委员会(IRB)隐私审查
- 禁止恶意使用本基准

红外谱图数据库
收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。
国家基础学科公共科学数据中心 收录
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
Solar Radiation Data
该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。
www.nrel.gov 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录