five

mschi/blogspot_raw

收藏
Hugging Face2022-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mschi/blogspot_raw
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含从Blogspot平台获取的原始博客文章的语料库,大部分为英文内容。数据集通过从webarchive和commoncrawl爬取数据构建,使用WARC-dl管道进行数据处理和过滤。数据集适用于训练语言模型或其他研究用途。数据字段包括文本、URL、日期和评论数量。数据集可能存在个人和敏感信息,且时间戳和评论标签的准确性无法完全保证。
提供机构:
mschi
原始信息汇总

数据集概述

数据集名称

  • 名称: Blogspot_raw_texts
  • 别名: blogspot raw dataset

数据集属性

  • 语言: 主要为英语,可能包含少量其他语言
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 来源: 原始数据
  • 标签: blogspot, blogger, texts
  • 任务类别: text-classification, text-retrieval, text-generation, time-series-forecasting

数据集内容

  • 内容概述: 该数据集包含从blogspot获取的原始博客文章,主要语言为英语。数据通过抓取webarchivecommoncrawl的文本来获得。
  • 支持任务: 可用于训练语言模型或其他研究目的

数据集结构

  • 数据实例: 待补充
  • 数据字段:
    • text: 字符串
    • URL: 字符串
    • date: 字符串
    • comment: 整数
  • 数据分割: 待补充

数据集创建

  • 采集理由: 数据集通过WARC-dl管道构建,运行于集群架构上。从archive.org和commoncrawl.org的文集中提取WARC文件中的HTML,并通过管道进行解析和过滤。
  • 源数据:
    • 初始数据收集和规范化: 搜索了"corpus-commoncrawl-main-2022-05"和"corpus-iwo-internet-archive-wide00001"文集中的内容。通过特定搜索词过滤"blogspot.com"的URL,并从URL中提取时间戳信息。
    • 源语言生产者: 由于blogspot允许全球用户设置和维护博客,文本生产者无法进一步指定。

使用数据注意事项

  • 偏见讨论: 从HTML文档中检索的时间戳不完全准确,可能存在少量错误或无意义的时间戳。无法保证时间戳和"comment"标签的正确性。

数据集贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作