BBC-Dataset-News-Classification|新闻分类数据集|文本分析数据集
收藏数据集概述
数据集名称
BBC-Dataset-News-Classification
数据集内容
- 文档数量:2225篇
- 来源:BBC新闻网站
- 时间范围:2004-2005年
- 主题领域:5个(商业、娱乐、政治、体育、科技)
数据集结构
- 文件描述:
dataset/data_files
:包含多个新闻txt文件的数据文件夹。dataset/dataset.csv
:包含“新闻”和“类型”两列的csv文件。其中“新闻”列代表新闻文章,“类型”列代表新闻类别。model/get_data.py
:用于将所有txt文件整合成一个包含两列(“新闻”,“类型”)的csv文件。model/model.py
:包含预处理、tf-idf特征提取、模型构建和评估的脚本。model/test.ipynb
:Jupyter笔记本文件。
数据集划分
- 训练集:1780个样本
- 测试集:445个样本
评估结果
- 准确率:0.9573
- Kappa系数:0.9461

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
lmarena-ai/arena-hard-auto-v0.1
--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```
hugging_face 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
中国乡镇 GeoJSON 数据
这个数据集包含了中国所有乡镇的地理区域数据,以GeoJSON格式提供。
github 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录