five

BYU-Idaho/Web-Content

收藏
Hugging Face2025-12-29 更新2026-01-03 收录
下载链接:
https://hf-mirror.com/datasets/BYU-Idaho/Web-Content
下载链接
链接失效反馈
官方服务:
资源简介:
BYU-Idaho网络内容数据集(NLP增强版)是一个先进的大学网络内容数据集,具有完整的NLP增强功能,包括实体提取、缩略语检测、领域术语和语义特征。该数据集适用于高级RAG、语义搜索和AI应用。数据集包含2,448个超高质量的页面,来源于byui.edu及其子域名,格式为Markdown加NLP元数据(JSON字段)。质量方面,经过40.2%的过滤,平均得分为91.5/100,并包含完整的NLP提取。数据集最后更新于2025年12月。

The BYU-Idaho Web Content Dataset (NLP-Enhanced) is a state-of-the-art university web content dataset with full NLP enrichment: entity extraction, acronym detection, domain terminology, and semantic features. Enterprise-ready for advanced RAG, semantic search, and AI applications. The dataset contains 2,448 ultra-high-quality pages sourced from byui.edu and subdomains, formatted with Markdown content and enriched with NLP metadata (JSON fields). Quality metrics include 40.2% filtered content, an average score of 91.5/100, and full NLP extraction. The dataset was last updated in December 2025.
提供机构:
BYU-Idaho
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作