mschi/blogspot_raw
收藏Hugging Face2022-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mschi/blogspot_raw
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含从Blogspot平台获取的原始博客文章的语料库,大部分为英文内容。数据集通过从webarchive和commoncrawl爬取数据构建,使用WARC-dl管道进行数据处理和过滤。数据集适用于训练语言模型或其他研究用途。数据字段包括文本、URL、日期和评论数量。数据集可能存在个人和敏感信息,且时间戳和评论标签的准确性无法完全保证。
提供机构:
mschi
原始信息汇总
数据集概述
数据集名称
- 名称: Blogspot_raw_texts
- 别名: blogspot raw dataset
数据集属性
- 语言: 主要为英语,可能包含少量其他语言
- 许可证: MIT
- 多语言性: 单语种
- 大小: 1M<n<10M
- 来源: 原始数据
- 标签: blogspot, blogger, texts
- 任务类别: text-classification, text-retrieval, text-generation, time-series-forecasting
数据集内容
- 内容概述: 该数据集包含从blogspot获取的原始博客文章,主要语言为英语。数据通过抓取webarchive和commoncrawl的文本来获得。
- 支持任务: 可用于训练语言模型或其他研究目的
数据集结构
- 数据实例: 待补充
- 数据字段:
- text: 字符串
- URL: 字符串
- date: 字符串
- comment: 整数
- 数据分割: 待补充
数据集创建
- 采集理由: 数据集通过WARC-dl管道构建,运行于集群架构上。从archive.org和commoncrawl.org的文集中提取WARC文件中的HTML,并通过管道进行解析和过滤。
- 源数据:
- 初始数据收集和规范化: 搜索了"corpus-commoncrawl-main-2022-05"和"corpus-iwo-internet-archive-wide00001"文集中的内容。通过特定搜索词过滤"blogspot.com"的URL,并从URL中提取时间戳信息。
- 源语言生产者: 由于blogspot允许全球用户设置和维护博客,文本生产者无法进一步指定。
使用数据注意事项
- 偏见讨论: 从HTML文档中检索的时间戳不完全准确,可能存在少量错误或无意义的时间戳。无法保证时间戳和"comment"标签的正确性。
数据集贡献者
- 贡献者: @jonaskonig, @maschirmer, @1BlattPapier



