WebRover Dataset|自然语言处理数据集|AI模型训练数据集
收藏WebRover 数据集生成库
概述
WebRover 是一个强大的 Python 库,专门用于从网页内容生成高质量的数据集,适用于训练大型语言模型和 AI 应用。
主要功能
- 智能网页抓取:根据主题自动查找和抓取相关内容。
- 多输入格式支持:支持 JSON、YAML、TXT 和 Markdown 格式的主题文件。
- 异步处理:内置速率限制的快速并发抓取。
- 质量控制:内置内容验证和清理功能。
- LLM 就绪输出:结构化的 JSONL 格式,适合模型训练。
- 错误处理:强大的错误跟踪和恢复机制。
重要说明
云环境兼容性
在 Google Colab 或 Kaggle Notebooks 等云环境中使用时,可能需要处理嵌套的 asyncio 循环。解决方法如下:
-
安装
nest_asyncio: bash pip install nest_asyncio -
在笔记本开头添加以下代码: python import nest_asyncio nest_asyncio.apply()
快速开始
安装
bash pip install webrover
基本用法
python from webrover import WebRover
初始化 WebRover
rover = WebRover()
从主题抓取内容
rover.scrape_topics( topics=["artificial intelligence", "machine learning"], sites_per_topic=20 # 每个主题获取 20 个站点 )
保存数据集
rover.save_dataset("my_dataset.jsonl")
使用主题文件
python
从 JSON 文件
rover.scrape_topics( topics="topics.json", num_websites=100 )
从 Markdown 列表
rover.scrape_topics( topics="topics.md", num_websites=100 )
支持的主题文件格式
JSON
json { "topics": [ "AI basics", "machine learning", "deep learning" ] }
YAML
yaml topics:
- AI basics
- machine learning
- deep learning
Markdown
- AI basics
- machine learning
- deep learning
输出结构
python { url: https://example.com/article, title: Article Title, content: Article content..., metadata: { length: 1234, has_title: true, domain: example.com } }
高级用法
python
初始化自定义输出目录
rover = WebRover(output_dir="my_datasets")
获取抓取统计信息
stats = rover.get_stats() print(f"成功率: {stats[success_rate]*100:.1f}%")
程序化访问数据集
dataset = rover.get_dataset()
输出文件
final_dataset/dataset.jsonl:主数据集,JSONL 格式。websites_master.json:所有发现的 URL 列表。websites_completed.json:成功抓取的 URL 列表。websites_errors.json:失败的尝试,包含错误详情。
错误处理
WebRover 自动处理常见问题:
- 速率限制
- 网络超时
- 无效 URL
- 被阻止的请求
- 格式错误的内容
限制
- 遵守 robots.txt 和站点速率限制。
- 某些站点可能阻止自动化访问。
- 大型数据集需要更多处理时间。
- Google 搜索可能会限制过多的请求。

Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
中国近海台风路径集合数据集(1945-2024)
1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。
国家海洋科学数据中心 收录
ShapeNet
ShapeNet 是由斯坦福大学、普林斯顿大学和美国芝加哥丰田技术研究所的研究人员开发的大型 3D CAD 模型存储库。该存储库包含超过 3 亿个模型,其中 220,000 个模型被分类为使用 WordNet 上位词-下位词关系排列的 3,135 个类。 ShapeNet Parts 子集包含 31,693 个网格,分为 16 个常见对象类(即桌子、椅子、平面等)。每个形状基本事实包含 2-5 个部分(总共 50 个部分类)。
OpenDataLab 收录
中国近海地形数据集(渤海,黄海,东海,南海)
本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。
地球大数据科学工程 收录
中文突发事件语料库
中文突发事件语料库是由上海大学(语义智能实验室)所构建,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集了5类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC合计332篇。
github 收录
