Skywork/SkyPile-150B|自然语言处理数据集|语言模型预训练数据集
收藏SkyPile-150B 数据集概述
数据集简介
SkyPile-150B 是一个专为大型语言模型预训练设计的中文大型数据集。该数据集从广泛的公开中文互联网网页中提取,经过严格的过滤、去重和敏感数据筛选,确保数据质量。使用fastText和BERT等工具过滤低质量数据。
数据集规模
- 包含约23300万个独特网页。
- 每个网页平均包含超过1000个中文字符。
- 总计约1500亿个tokens和620GB的纯文本数据。
语言
数据集完全由中文数据组成。
数据字段解释
- text: 从每个页面提取并处理过的清洗文本。
数据集安全性
使用超过200万条规则和BERT-base模型检测并移除数据集中的敏感信息。
敏感信息与偏见
数据集可能包含敏感信息,如电子邮件地址、电话号码或IP地址,已通过去重和低质量过滤尽力减少此类信息。互联网数据可能包含毒性或偏见,已通过特定URL过滤方法尝试缓解,但建议用户保持警惕。
许可证
使用SkyPile数据集需遵守Skywork社区许可证,支持商业用途。如用于商业目的,还需遵守Apache2.0许可证的条款和条件。

Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
TaRF
TaRF 是由密歇根大学、耶鲁大学和加州大学伯克利分校联合创建的视触融合场景数据集,旨在将视觉与触觉信号对齐至共享的三维空间。该数据集包含 19.3k 对齐的视觉与触觉样本,覆盖 13 个普通场景,如办公室、走廊和户外环境。数据采集通过结合神经辐射场(NeRF)和触觉传感器完成,利用多视图几何方法校准视觉与触觉信号,实现空间对齐。TaRF 的创建过程包括场景的多视角视觉重建和同步采集触觉信号,最终通过扩散模型生成未直接采样的触觉信号。该数据集可用于触觉信号估计、触觉定位和材料属性理解等任务,为机器人交互和虚拟世界构建提供重要支持。
github 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
BC-MRI-SEG
BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集,由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集,包括RIDER、ISPY1、BreastDM和DUKE,总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同,提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题,并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估,通过深度学习方法提高肿瘤分割的准确性和效率。
arXiv 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录