chreh/bbc_2021_2023|新闻数据数据集|文本分析数据集

hugging_face2024-02-23 更新2024-03-04 收录

新闻数据

文本分析

下载链接：

https://hf-mirror.com/datasets/chreh/bbc_2021_2023

下载链接

链接失效反馈

资源简介：

该数据集包含五个特征：标题（title）、发布日期（published_date）、描述（description）、内容（content）和链接（link），所有特征的数据类型均为字符串。数据集分为一个训练集（train），包含53714个样本，总大小为214407383字节。数据集的下载大小为108726297字节。数据集配置名为default，数据文件路径为data/train-*。

提供机构：

chreh

原始信息汇总

数据集概述

数据集信息

特征列表：
- title：字符串类型
- published_date：字符串类型
- description：字符串类型
- content：字符串类型
- link：字符串类型
数据分割：
- train：
  - 字节数：214407383
  - 样本数：53714
下载大小：108726297
数据集大小：214407383

配置

默认配置：
- 数据文件：
  - train：路径为 data/train-*

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

Project Gutenberg

Project Gutenberg是一个提供免费电子书的数据集，包含超过60,000本免费电子书，涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主，用户可以自由下载和使用。

www.gutenberg.org 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集，包含超过530万张图像-文本对，涵盖六种不同的医学成像模态：X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型（LLMs）将特定模态的分类数据集转换为图像-文本格式，并结合现有的医学领域的图像-文本数据，以促进可扩展的视觉语言模型（VLM）预训练。

github 收录