fineweb2-telugu-safety
收藏Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/salmankhanpm/fineweb2-telugu-safety
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言文本数据集,包含多个配置,每个配置具有不同的特征和数据规模。主要特征包括文本内容、ID、来源URL、日期、文件路径、语言信息(语言、语言分数、语言脚本)、安全标签(安全类别、严重性、置信度、原因、关键词等)以及其他元数据。数据集分为四个配置:默认配置、拉丁字母转写合并配置、泰卢固语拉丁字母转写配置和泰卢固语原文配置。每个配置的训练集大小和样本数量不同,最大配置包含70,000个样本。数据集适用于多语言文本处理、安全内容检测和语言识别等任务。
创建时间:
2026-03-15



