BBC-Dataset-News-Classification|新闻分类数据集|文本分析数据集
收藏数据集概述
数据集名称
BBC-Dataset-News-Classification
数据集内容
- 文档数量:2225篇
- 来源:BBC新闻网站
- 时间范围:2004-2005年
- 主题领域:5个(商业、娱乐、政治、体育、科技)
数据集结构
- 文件描述:
dataset/data_files
:包含多个新闻txt文件的数据文件夹。dataset/dataset.csv
:包含“新闻”和“类型”两列的csv文件。其中“新闻”列代表新闻文章,“类型”列代表新闻类别。model/get_data.py
:用于将所有txt文件整合成一个包含两列(“新闻”,“类型”)的csv文件。model/model.py
:包含预处理、tf-idf特征提取、模型构建和评估的脚本。model/test.ipynb
:Jupyter笔记本文件。
数据集划分
- 训练集:1780个样本
- 测试集:445个样本
评估结果
- 准确率:0.9573
- Kappa系数:0.9461

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
RETQA
RETQA是由北京师范大学创建的第一个大规模开放领域中文表格问答数据集,专门针对房地产领域。该数据集包含4932个表格和20762个问答对,涵盖16个子领域,涉及房产信息、房地产公司财务信息和土地拍卖信息。数据集通过从中国八个主要城市的公开数据源收集并清洗整理,每个表格都配有摘要标题以辅助检索。RETQA的创建过程包括表格收集、问答对生成、意图和槽标签注释以及查询重写和质量控制。该数据集主要用于解决房地产领域的开放域和长表格问答问题,推动表格问答技术的发展。
arXiv 收录
gold-prices
自1950年以来的每月黄金价格数据,以美元计价(伦敦市场)。数据来源于德国联邦银行。
github 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
UAVDT Dataset
The authors constructed a new UAVDT Dataset focused on complex scenarios with new level challenges. Selected from 10 hours raw videos, about 80, 000 representative frames are fully annotated with bounding boxes as well as up to 14 kinds of attributes (e.g., weather condition, flying altitude, camera view, vehicle category, and occlusion) for three fundamental computer vision tasks: object detection, single object tracking, and multiple object tracking.
datasetninja.com 收录