Stefan171/TheGuardian-Articles

Name: Stefan171/TheGuardian-Articles
Creator: Stefan171
Published: 2024-05-11 04:57:52
License: 暂无描述

Hugging Face2024-05-11 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Stefan171/TheGuardian-Articles

下载链接

链接失效反馈

官方服务：

资源简介：

TheGuardian.com网站文章数据集是一个用于自然语言处理任务（如文本分类和信息提取）的数据集。数据集包含从theguardian.com网站抓取的新闻文章，每篇文章包含URL、类别、发布日期、作者、标题和内容等信息。数据集的主要语言是英语，但也可能包含其他语言的内容。数据集包含约135,808,383个标记，数据质量分为Full和Partial两种。目标用户为对新闻文章文本分析感兴趣的研究人员、数据科学家和开发者。使用数据集时需注意内容警告、潜在偏见以及法律和伦理问题。

提供机构：

Stefan171

原始信息汇总

数据集概述

基本信息

名称: TheGuardian.com Website Articles
许可证: Apache-2.0
语言: 主要为英语，可能包含其他语言
标签:
- webdataset
- News
- Articles
- Text Classification
- Information Extraction
- Natural Language Processing
- Web Scraping
- Data Curation
- English
- Multilingual
- Text Analysis
- Sentiment Analysis
- Topic Modeling
- Machine Learning
- Data Science
- Research
- Journalism
- Media
- Large-Scale Data
任务类别:
- text-classification
- summarization
- feature-extraction
大小类别: 100M<n<1B

数据集结构

数据实例:
- URL: [string]
- Article Category: [string]
- Publication Date: [datetime]
- Article Author: [string]
- Article Title: [string]
- Article Contents: [string]
- Data Quality: [string] (Full or Partial)

数据集统计

令牌数: 约135,808,383个
数据质量分布:
- Full数据质量行数: 87,641
- Partial数据质量行数: 50,594

目标用户

研究人员
数据科学家
开发者

注意事项

内容警告: 可能包含不适合儿童的内容，使用前需审查。
潜在偏见: 数据集反映了《卫报》网站的内容，可能包含源材料的固有偏见。
法律和伦理考虑:
- 许可证: Apache License 2.0
- 数据隐私: 包含公开信息，但用户应遵守《卫报》的使用条款和隐私政策。
- 内容使用限制: 不允许用于大型语言模型、机器学习和人工智能相关目的，以及任何商业用途。

数据集创建者

创建者: Stefan Carter (stefan171@gmail.com)

5,000+

优质数据集

54 个

任务类型

进入经典数据集