Stefan171/TheGuardian-Articles
收藏Hugging Face2024-05-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Stefan171/TheGuardian-Articles
下载链接
链接失效反馈官方服务:
资源简介:
TheGuardian.com网站文章数据集是一个用于自然语言处理任务(如文本分类和信息提取)的数据集。数据集包含从theguardian.com网站抓取的新闻文章,每篇文章包含URL、类别、发布日期、作者、标题和内容等信息。数据集的主要语言是英语,但也可能包含其他语言的内容。数据集包含约135,808,383个标记,数据质量分为Full和Partial两种。目标用户为对新闻文章文本分析感兴趣的研究人员、数据科学家和开发者。使用数据集时需注意内容警告、潜在偏见以及法律和伦理问题。
TheGuardian.com网站文章数据集是一个用于自然语言处理任务(如文本分类和信息提取)的数据集。数据集包含从theguardian.com网站抓取的新闻文章,每篇文章包含URL、类别、发布日期、作者、标题和内容等信息。数据集的主要语言是英语,但也可能包含其他语言的内容。数据集包含约135,808,383个标记,数据质量分为Full和Partial两种。目标用户为对新闻文章文本分析感兴趣的研究人员、数据科学家和开发者。使用数据集时需注意内容警告、潜在偏见以及法律和伦理问题。
提供机构:
Stefan171
原始信息汇总
数据集概述
基本信息
- 名称: TheGuardian.com Website Articles
- 许可证: Apache-2.0
- 语言: 主要为英语,可能包含其他语言
- 标签:
- webdataset
- News
- Articles
- Text Classification
- Information Extraction
- Natural Language Processing
- Web Scraping
- Data Curation
- English
- Multilingual
- Text Analysis
- Sentiment Analysis
- Topic Modeling
- Machine Learning
- Data Science
- Research
- Journalism
- Media
- Large-Scale Data
- 任务类别:
- text-classification
- summarization
- feature-extraction
- 大小类别: 100M<n<1B
数据集结构
- 数据实例:
- URL: [string]
- Article Category: [string]
- Publication Date: [datetime]
- Article Author: [string]
- Article Title: [string]
- Article Contents: [string]
- Data Quality: [string] (Full or Partial)
数据集统计
- 令牌数: 约135,808,383个
- 数据质量分布:
- Full数据质量行数: 87,641
- Partial数据质量行数: 50,594
目标用户
- 研究人员
- 数据科学家
- 开发者
注意事项
- 内容警告: 可能包含不适合儿童的内容,使用前需审查。
- 潜在偏见: 数据集反映了《卫报》网站的内容,可能包含源材料的固有偏见。
- 法律和伦理考虑:
- 许可证: Apache License 2.0
- 数据隐私: 包含公开信息,但用户应遵守《卫报》的使用条款和隐私政策。
- 内容使用限制: 不允许用于大型语言模型、机器学习和人工智能相关目的,以及任何商业用途。
数据集创建者
- 创建者: Stefan Carter (stefan171@gmail.com)



