five

teo-sanchez/diffusiondb_ner

收藏
Hugging Face2023-01-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/teo-sanchez/diffusiondb_ner
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过名为en_ner_prompting的命名实体识别模型从poloclub/diffusiondb数据集中推断得出的扩展数据集。该模型在手工标注的提示上进行了训练。因此,这个数据集是通过该模型推断得出的,可能包含错误,特别是在某些类别上。数据集包含7个主要类别和11个子类别,共计16个类别,这些类别是通过BERTopic进行主题分析得出的。主要类别包括medium(媒介)、influence(影响)、light(光线)、color(颜色)、composition(构图)、detail(细节)和context(背景),每个类别下还有具体的子类别。
提供机构:
teo-sanchez
原始信息汇总

数据集概述

  • 名称: NER-DiffusionDB
  • 语言: 英语(en)
  • 许可证: CC-BY-3.0
  • 多语言性: 单语
  • 大小: 100M<n<1G
  • 来源数据集: poloclub/diffusiondb
  • 标签方案: 包含16个标签,分为7个主要类别和11个子类别

数据集详情

  • 描述: 该数据集是通过名为en_ner_prompting的实体识别模型推断得出的,该模型训练自poloclub/diffusiondb数据集中的手工标注提示。数据集可能包含错误,特别是在某些类别中。
  • 实体分类: 数据集中的实体分为16个类别,通过使用BERTopic进行主题分析得出。
  • 标签方案: 数据集的标签方案包括16个标签,涵盖颜色、构图、上下文(情感、时代、天气)、细节、影响(艺术家、艺术品、流派、资源库)、光线、媒介(插图、绘画、摄影、渲染)等。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作