five

BBCSport

收藏
DataCite Commons2024-08-06 更新2025-04-16 收录
下载链接:
https://ieee-dataport.org/documents/bbcsport
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset consists of 737 documents from the BBC Sport website, corresponding to sports news articles in five topical areas from 2004-2005. The class labels are divided into five categories: athletics, cricket, football, rugby, and tennis. The datasets have been pre-processed using the Porter stemming algorithm, stop-word removal, and filtering out terms with low frequency (count < 3). The files in the archives include: *.mtx (original term frequencies stored in a sparse data matrix in Matrix Market format), *.terms (list of content-bearing terms in the corpus, each line corresponding to a row of the sparse data matrix), *.docs (list of document identifiers, each line corresponding to a column of the sparse data matrix), *.classes (assignment of documents to natural classes, each line corresponding to a document), and *.urls (links to original articles, where appropriate).

本数据集包含来自BBC Sport网站的737篇文档,对应2004至2005年间5个主题领域的体育新闻稿件。其类别标签共分为五大类:田径(athletics)、板球(cricket)、足球(football)、橄榄球(rugby)以及网球(tennis)。本数据集已完成预处理操作,具体包括采用波特词干提取算法(Porter stemming algorithm)、停用词去除,以及过滤词频低于3的低频词项。归档包内包含以下文件:*.mtx(以Matrix Market格式存储的稀疏数据矩阵,内含原始词频信息)、*.terms(语料库中具备语义承载功能的词项列表,每行对应稀疏数据矩阵的一行)、*.docs(文档标识符列表,每行对应稀疏数据矩阵的一列)、*.classes(文档所属自然类别映射表,每行对应一篇文档)以及*.urls(对应原文报道的链接,视情况提供)。
提供机构:
IEEE DataPort
创建时间:
2024-08-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
BBCSport数据集包含737篇BBC体育新闻文章,分为五个类别(田径、板球、足球、橄榄球和网球),并已进行词干提取和停用词去除等预处理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作