WebRover Dataset|自然语言处理数据集|AI模型训练数据集
收藏WebRover 数据集生成库
概述
WebRover 是一个强大的 Python 库,专门用于从网页内容生成高质量的数据集,适用于训练大型语言模型和 AI 应用。
主要功能
- 智能网页抓取:根据主题自动查找和抓取相关内容。
- 多输入格式支持:支持 JSON、YAML、TXT 和 Markdown 格式的主题文件。
- 异步处理:内置速率限制的快速并发抓取。
- 质量控制:内置内容验证和清理功能。
- LLM 就绪输出:结构化的 JSONL 格式,适合模型训练。
- 错误处理:强大的错误跟踪和恢复机制。
重要说明
云环境兼容性
在 Google Colab 或 Kaggle Notebooks 等云环境中使用时,可能需要处理嵌套的 asyncio 循环。解决方法如下:
-
安装
nest_asyncio
: bash pip install nest_asyncio -
在笔记本开头添加以下代码: python import nest_asyncio nest_asyncio.apply()
快速开始
安装
bash pip install webrover
基本用法
python from webrover import WebRover
初始化 WebRover
rover = WebRover()
从主题抓取内容
rover.scrape_topics( topics=["artificial intelligence", "machine learning"], sites_per_topic=20 # 每个主题获取 20 个站点 )
保存数据集
rover.save_dataset("my_dataset.jsonl")
使用主题文件
python
从 JSON 文件
rover.scrape_topics( topics="topics.json", num_websites=100 )
从 Markdown 列表
rover.scrape_topics( topics="topics.md", num_websites=100 )
支持的主题文件格式
JSON
json { "topics": [ "AI basics", "machine learning", "deep learning" ] }
YAML
yaml topics:
- AI basics
- machine learning
- deep learning
Markdown
- AI basics
- machine learning
- deep learning
输出结构
python { url: https://example.com/article, title: Article Title, content: Article content..., metadata: { length: 1234, has_title: true, domain: example.com } }
高级用法
python
初始化自定义输出目录
rover = WebRover(output_dir="my_datasets")
获取抓取统计信息
stats = rover.get_stats() print(f"成功率: {stats[success_rate]*100:.1f}%")
程序化访问数据集
dataset = rover.get_dataset()
输出文件
final_dataset/dataset.jsonl
:主数据集,JSONL 格式。websites_master.json
:所有发现的 URL 列表。websites_completed.json
:成功抓取的 URL 列表。websites_errors.json
:失败的尝试,包含错误详情。
错误处理
WebRover 自动处理常见问题:
- 速率限制
- 网络超时
- 无效 URL
- 被阻止的请求
- 格式错误的内容
限制
- 遵守 robots.txt 和站点速率限制。
- 某些站点可能阻止自动化访问。
- 大型数据集需要更多处理时间。
- Google 搜索可能会限制过多的请求。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
sentiments
该数据集包含多种语言的文本数据,每条数据包含一个陈述(statement)、一个标签(label)和一个语言标识(language)。支持的语言包括英语、日语、中文、西班牙语、阿拉伯语、马来语、法语、印地语、德语、印度尼西亚语、葡萄牙语和意大利语。每个语言版本的数据量和文件路径都有详细记录。
huggingface 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
DGA, Realdex, DexGraspNet, UniDexGrasp, MultiDex, DexGRAB
DexGrasp Anything: 具有物理感知的通用机器人灵巧抓取数据集。RealDex: 面向人类类似抓取的机器人灵巧手数据集。DexGraspNet: 基于仿真的通用物体大规模机器人灵巧抓取数据集。UniDexGrasp: 通过学习多样化提案生成和目标条件策略的通用机器人灵巧抓取数据集。MultiDex: 通用灵巧抓取数据集。DexGRAB: 从Grab重新定位的全身人类抓取物体数据集。
github 收录