five

Stefan171/TheGuardian-Articles

收藏
Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Stefan171/TheGuardian-Articles
下载链接
链接失效反馈
官方服务:
资源简介:
TheGuardian.com网站文章数据集是一个用于自然语言处理任务(如文本分类和信息提取)的数据集。数据集包含从theguardian.com网站抓取的新闻文章,每篇文章包含URL、类别、发布日期、作者、标题和内容等信息。数据集的主要语言是英语,但也可能包含其他语言的内容。数据集包含约135,808,383个标记,数据质量分为Full和Partial两种。目标用户为对新闻文章文本分析感兴趣的研究人员、数据科学家和开发者。使用数据集时需注意内容警告、潜在偏见以及法律和伦理问题。

TheGuardian.com网站文章数据集是一个用于自然语言处理任务(如文本分类和信息提取)的数据集。数据集包含从theguardian.com网站抓取的新闻文章,每篇文章包含URL、类别、发布日期、作者、标题和内容等信息。数据集的主要语言是英语,但也可能包含其他语言的内容。数据集包含约135,808,383个标记,数据质量分为Full和Partial两种。目标用户为对新闻文章文本分析感兴趣的研究人员、数据科学家和开发者。使用数据集时需注意内容警告、潜在偏见以及法律和伦理问题。
提供机构:
Stefan171
原始信息汇总

数据集概述

基本信息

  • 名称: TheGuardian.com Website Articles
  • 许可证: Apache-2.0
  • 语言: 主要为英语,可能包含其他语言
  • 标签:
    • webdataset
    • News
    • Articles
    • Text Classification
    • Information Extraction
    • Natural Language Processing
    • Web Scraping
    • Data Curation
    • English
    • Multilingual
    • Text Analysis
    • Sentiment Analysis
    • Topic Modeling
    • Machine Learning
    • Data Science
    • Research
    • Journalism
    • Media
    • Large-Scale Data
  • 任务类别:
    • text-classification
    • summarization
    • feature-extraction
  • 大小类别: 100M<n<1B

数据集结构

  • 数据实例:
    • URL: [string]
    • Article Category: [string]
    • Publication Date: [datetime]
    • Article Author: [string]
    • Article Title: [string]
    • Article Contents: [string]
    • Data Quality: [string] (Full or Partial)

数据集统计

  • 令牌数: 约135,808,383个
  • 数据质量分布:
    • Full数据质量行数: 87,641
    • Partial数据质量行数: 50,594

目标用户

  • 研究人员
  • 数据科学家
  • 开发者

注意事项

  • 内容警告: 可能包含不适合儿童的内容,使用前需审查。
  • 潜在偏见: 数据集反映了《卫报》网站的内容,可能包含源材料的固有偏见。
  • 法律和伦理考虑:
    • 许可证: Apache License 2.0
    • 数据隐私: 包含公开信息,但用户应遵守《卫报》的使用条款和隐私政策。
    • 内容使用限制: 不允许用于大型语言模型、机器学习和人工智能相关目的,以及任何商业用途。

数据集创建者

  • 创建者: Stefan Carter (stefan171@gmail.com)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作