five

hieule/news_corpus_v2_p1

收藏
hugging_face2022-12-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hieule/news_corpus_v2_p1
下载链接
链接失效反馈
资源简介:
新闻语料库v2_p1数据集包含500万条新闻数据,每条数据包括来源(source)、标题(title)、摘要(sapo)、分类标签(cates)、发布时间(publish)和文本内容(text_content)。数据集主要用于训练,总大小为15876374992字节,下载大小为7858134654字节。
提供机构:
hieule
原始信息汇总

数据集概述

数据集名称

  • 名称: news_corpus_v2_p1

数据集特征

  • source: 数据类型为字符串。
  • title: 数据类型为字符串。
  • sapo: 数据类型为字符串。
  • cates: 数据类型为字符串序列。
  • publish: 数据类型为时间戳(微秒)。
  • text_content: 数据类型为字符串。

数据集拆分

  • 训练集:
    • 样本数量: 5000000
    • 数据大小: 15876374992 字节

数据集大小

  • 下载大小: 7858134654 字节
  • 数据集总大小: 15876374992 字节
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

猫狗分类

## 数据集描述 ### 数据集简介 本数据集是简单的猫狗二分类数据集,共2个类别,其中训练集包含275张带注释的图像,验证集包含70张带注释的图像。整个数据集共10.3MB,可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务 可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式 数据集包括训练集train和验证集val,train和val文件夹之下按文件夹进行分类,共有2个子文件夹,同类别标签的图片在同一个文件夹下,图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片 本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```

魔搭社区 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

PartNet

我们介绍了PartNet: 一个一致的、大规模的三维对象数据集,用细粒度的、实例级的和分层的三维零件信息进行注释。我们的数据集包括573,585个零件实例,超过26,671个3D模型,涵盖24个对象类别。该数据集支持并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可承受分析等。使用我们的数据集,我们建立了用于评估3D零件识别的三个基准任务: 细粒度语义分割,分层语义分割和实例分割。我们对四种最先进的3D深度学习算法进行了基准测试,用于细粒度语义分割,并对三种基线方法进行了基准测试。我们还提出了一种新颖的零件实例分割方法,并证明了其优于现有方法的性能。

OpenDataLab 收录

VFXMaster

VFXMaster是一个基于参考的动态视觉特效生成框架,旨在解决传统特效制作资源密集、难以泛化的问题。通过上下文学习,该框架能够将参考视频中的复杂动态效果转移到用户提供的图像上。该数据集包含多样化的动态视觉效果类别,并且通过精心设计的上下文注意力掩码机制,模型能够从参考示例中学习到视觉效果,同时避免信息泄露。为了提升对未知特效的泛化能力,还设计了一种高效的单样本特效适配机制,通过学习一组可学习的概念增强标记来快速提高模型对未知特效的泛化能力。

arXiv 收录