BroDeadlines/CRAWL.TDT.admission.tdtu.edu.vn_dai-hoc
收藏Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/BroDeadlines/CRAWL.TDT.admission.tdtu.edu.vn_dai-hoc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从TDT网站爬取的,具体是从admission.tdtu.edu.vn_dai-hoc网页集合中筛选出来的。数据集包含URL、HTML名称、跳过标记、Markdown、文本、批次、文档ID、分割Markdown和幻灯片Markdown等特征。数据集只有一个训练分割,包含223个示例,总大小为544983664字节。
This dataset is a filter of admission.tdtu.edu.vn_dai-hoc from a collection of web pages. The dataset includes features such as url, html_name, skipped, markdown, text, batch, doc_id, split_markdown, and slide_markdown. It is divided into a training set with 223 examples. The dataset is tagged with crawl and tdt.
提供机构:
BroDeadlines
原始信息汇总
数据集概述
数据集信息
- 许可证: MIT
- 特征:
url: 字符串类型html_name: 字符串类型skipped: 字符串类型markdown: 字符串类型text: 字符串类型batch: 字符串类型doc_id: 字符串类型split_markdown: 字符串序列类型slide_markdown: 字符串序列类型
- 分割:
train: 包含223个样本,占用544983664字节
- 下载大小: 40899249字节
- 数据集大小: 544983664字节
配置
- 配置名称: default
- 数据文件:
train: 路径为data/train-*
- 数据文件:
标签
- crawl
- tdt
描述
该数据集是从TDT网站爬取的“admission.tdtu.edu.vn_dai-hoc”页面集合的过滤结果。



