wanadzhar913/crawl-theedgemalaysia
收藏Hugging Face2023-09-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/wanadzhar913/crawl-theedgemalaysia
下载链接
链接失效反馈官方服务:
资源简介:
该数据集来源于The Edge Malaysia网站,采集了414,268个包含完整文章的网页。采集方法采用了暴力搜索的方式,通过测试URL中的数字组合来获取有效文章。数据集的采集状态为完成,但存在语言分类错误的问题,特别是将中文文章错误分类为英文。
该数据集来源于The Edge Malaysia网站,采集了414,268个包含完整文章的网页。采集方法采用了暴力搜索的方式,通过测试URL中的数字组合来获取有效文章。数据集的采集状态为完成,但存在语言分类错误的问题,特别是将中文文章错误分类为英文。
提供机构:
wanadzhar913
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 语言: 英语、中文
- 数据集链接: https://huggingface.co/datasets/wanadzhar913/crawl-theedgemalaysia
- 网页抓取数量: 414,268(仅包含完整文章的网页)
- 抓取结束日期: 2023年8月14日
- 数据集状态: 完成
数据集问题
- 语言分类错误: 数据集中的“语言”列存在错误,错误地将一些中文文章分类为其他语言。这主要是因为在文本中搜索“English version”字符串导致的。如果语言类型是重要因素,需要对此进行修正。
数据收集方法
- 收集方法: 使用暴力破解方法,通过测试所有数字组合来确定有效的URL,从而抓取数据。这是因为每个文章都有一个独特的URL后缀ID。
数据集进度
- 已完成所有预定批次的抓取任务。



