tiiuae/falcon-refinedweb|网络数据数据集|文本挖掘数据集
收藏数据集概述
数据集名称
Falcon RefinedWeb
数据集描述
Falcon RefinedWeb 是一个大规模的英语网络数据集,用于预训练大型语言模型。该数据集基于 CommonCrawl,通过严格的过滤和大规模的去重处理构建而成。
数据集特征
- content: 字符串类型,网页中处理和清洗后的文本内容。
- url: 字符串类型,爬取网页的URL。
- timestamp: 时间戳类型,网页被 CommonCrawl 爬取的时间。
- dump: 字符串类型,样本所属的 CommonCrawl 转储文件。
- segment: 字符串类型,样本所属的 CommonCrawl 段。
- image_urls: 序列类型,包含图片URL和图片替代文本的列表。
数据集大小
- 训练集大小: 2766953721769 字节,968000015 个样本。
- 下载大小: 466888198663 字节。
- 数据集总大小: 2766953721769 字节。
许可信息
数据集遵循 ODC-By 1.0 许可。
语言
数据集主要包含英语。
数据集结构
- 数据实例: 每个实例对应一个经过爬取、处理和去重后的网页。
- 数据字段: 如上所述的特征。
- 数据分割: 数据集未提供标准分割。
数据集创建
- 来源数据: 基于 CommonCrawl 转储文件。
- 数据收集和预处理: 应用了广泛的预处理和清洗,包括URL过滤、内容提取、语言识别和去重。
- 注释: 提供自动收集的注释,包括URL、爬取时间戳、原始转储和段信息,以及网页中的图片URL。
使用数据集的注意事项
- 社会影响: 旨在提高高质量网络数据的可用性,促进高性能大型语言模型的普及。
- 偏见讨论: 数据集可能包含网络上的有毒或偏见内容。
- 其他已知限制: 尽管进行了过滤和去重,仍可能存在错误或重复的文档。
附加信息
- 许可信息: 数据集遵循 ODC-By 1.0 许可,用户应遵守 CommonCrawl 的使用条款。
- 引用信息: 提供了详细的引用信息。
- 退出请求: 数据集基于 CommonCrawl,支持通过
robots.txt
进行退出请求。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
Global Wind Atlas (GWA)
Global Wind Atlas (GWA) 是一个全球风能资源数据集,提供了高分辨率的风速和风能密度数据。该数据集覆盖全球范围,包括陆地和海洋,旨在支持风能项目的规划和评估。数据集提供了多种风速和风能密度指标,以及风向和风能分布图。
globalwindatlas.info 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录
GREAT Dataset
我们提出了GREAT数据集:一个从复杂城市环境中车辆搭载平台收集的新型多传感器原始观测数据集,具有高精度多频GNSS接收器、战术级IMU、MEMS IMU、两个CMOS相机和LiDAR。所有这些传感器实现了硬件级别的时间同步,并且它们的时空关系得到了良好的校准。该数据集包括八个序列,涵盖武汉大学校园和城市郊区的环境。该数据集旨在评估各种多传感器融合导航算法的性能。
github 收录