five

BroDeadlines/CRAWL.TDT.admission.tdtu.edu.vn_dai-hoc

收藏
Hugging Face2024-07-01 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/BroDeadlines/CRAWL.TDT.admission.tdtu.edu.vn_dai-hoc
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从TDT网站爬取的,具体是从admission.tdtu.edu.vn_dai-hoc网页集合中筛选出来的。数据集包含URL、HTML名称、跳过标记、Markdown、文本、批次、文档ID、分割Markdown和幻灯片Markdown等特征。数据集只有一个训练分割,包含223个示例,总大小为544983664字节。

This dataset is a filter of admission.tdtu.edu.vn_dai-hoc from a collection of web pages. The dataset includes features such as url, html_name, skipped, markdown, text, batch, doc_id, split_markdown, and slide_markdown. It is divided into a training set with 223 examples. The dataset is tagged with crawl and tdt.
提供机构:
BroDeadlines
原始信息汇总

数据集概述

数据集信息

  • 许可证: MIT
  • 特征:
    • url: 字符串类型
    • html_name: 字符串类型
    • skipped: 字符串类型
    • markdown: 字符串类型
    • text: 字符串类型
    • batch: 字符串类型
    • doc_id: 字符串类型
    • split_markdown: 字符串序列类型
    • slide_markdown: 字符串序列类型
  • 分割:
    • train: 包含223个样本,占用544983664字节
  • 下载大小: 40899249字节
  • 数据集大小: 544983664字节

配置

  • 配置名称: default
    • 数据文件:
      • train: 路径为data/train-*

标签

  • crawl
  • tdt

描述

该数据集是从TDT网站爬取的“admission.tdtu.edu.vn_dai-hoc”页面集合的过滤结果。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作