mschi/blogspot_raw

Name: mschi/blogspot_raw
Creator: mschi
Published: 2022-09-13 08:48:23
License: 暂无描述

Hugging Face2022-09-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mschi/blogspot_raw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含从Blogspot平台获取的原始博客文章的语料库，大部分为英文内容。数据集通过从webarchive和commoncrawl爬取数据构建，使用WARC-dl管道进行数据处理和过滤。数据集适用于训练语言模型或其他研究用途。数据字段包括文本、URL、日期和评论数量。数据集可能存在个人和敏感信息，且时间戳和评论标签的准确性无法完全保证。

提供机构：

mschi

原始信息汇总

数据集概述

数据集名称

名称: Blogspot_raw_texts
别名: blogspot raw dataset

数据集属性

语言: 主要为英语，可能包含少量其他语言
许可证: MIT
多语言性: 单语种
大小: 1M<n<10M
来源: 原始数据
标签: blogspot, blogger, texts
任务类别: text-classification, text-retrieval, text-generation, time-series-forecasting

数据集内容

内容概述: 该数据集包含从blogspot获取的原始博客文章，主要语言为英语。数据通过抓取webarchive和commoncrawl的文本来获得。
支持任务: 可用于训练语言模型或其他研究目的

数据集结构

数据实例: 待补充
数据字段:
- text: 字符串
- URL: 字符串
- date: 字符串
- comment: 整数
数据分割: 待补充

数据集创建

采集理由: 数据集通过WARC-dl管道构建，运行于集群架构上。从archive.org和commoncrawl.org的文集中提取WARC文件中的HTML，并通过管道进行解析和过滤。
源数据:
- 初始数据收集和规范化: 搜索了"corpus-commoncrawl-main-2022-05"和"corpus-iwo-internet-archive-wide00001"文集中的内容。通过特定搜索词过滤"blogspot.com"的URL，并从URL中提取时间戳信息。
- 源语言生产者: 由于blogspot允许全球用户设置和维护博客，文本生产者无法进一步指定。

使用数据注意事项

偏见讨论: 从HTML文档中检索的时间戳不完全准确，可能存在少量错误或无意义的时间戳。无法保证时间戳和"comment"标签的正确性。

数据集贡献者

贡献者: @jonaskonig, @maschirmer, @1BlattPapier

5,000+

优质数据集

54 个

任务类型

进入经典数据集