BroDeadlines/CRAWL.admission.tdtu.edu.vn_dai-hoc
收藏Hugging Face2024-06-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BroDeadlines/CRAWL.admission.tdtu.edu.vn_dai-hoc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从TDT网站抓取的,并且是admission.tdtu.edu.vn_dai-hoc的过滤版本。数据集包含URL、HTML名称、跳过标记、Markdown、文本、批次、文档ID、分割Markdown和幻灯片Markdown等特征。数据集只有一个训练分割,包含223个例子,大小为544983664字节。
该数据集是从TDT网站抓取的,并且是admission.tdtu.edu.vn_dai-hoc的过滤版本。数据集包含URL、HTML名称、跳过标记、Markdown、文本、批次、文档ID、分割Markdown和幻灯片Markdown等特征。数据集只有一个训练分割,包含223个例子,大小为544983664字节。
提供机构:
BroDeadlines
原始信息汇总
数据集概述
数据集特征
- url: 字符串类型
- html_name: 字符串类型
- skipped: 字符串类型
- markdown: 字符串类型
- text: 字符串类型
- batch: 字符串类型
- doc_id: 字符串类型
- split_markdown: 字符串序列类型
- slide_markdown: 字符串序列类型
数据集划分
- train:
- 示例数量: 223
- 数据大小: 544983664字节
数据集大小
- 下载大小: 40899249字节
- 数据集总大小: 544983664字节
配置信息
- config_name: default
- data_files:
- split: train
- path: data/train-*



