five

shwetkm/TextCaps-Caption-Summary

收藏
Hugging Face2023-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shwetkm/TextCaps-Caption-Summary
下载链接
链接失效反馈
官方服务:
资源简介:
使用slauw87/bart_summarisation BART模型对TextCaps数据集的多个描述进行汇总的结果。

使用slauw87/bart_summarisation BART模型对TextCaps数据集的多个描述进行汇总的结果。
提供机构:
shwetkm
原始信息汇总

数据集信息

特征

  • ocr_tokens: 列表,元素类型为字符串
  • ocr_info: 列表,包含以下结构:
    • word: 字符串
    • bounding_box: 结构体,包含以下字段:
      • width: 浮点数 (float32)
      • height: 浮点数 (float32)
      • rotation: 浮点数 (float32)
      • roll: 浮点数 (float32)
      • pitch: 浮点数 (float32)
      • yaw: 浮点数 (float32)
      • top_left_x: 浮点数 (float32)
      • top_left_y: 浮点数 (float32)
  • image: 图像
  • image_id: 字符串
  • image_classes: 列表,元素类型为字符串
  • flickr_original_url: 字符串
  • flickr_300k_url: 字符串
  • image_width: 整数 (int32)
  • image_height: 整数 (int32)
  • set_name: 字符串
  • image_name: 字符串
  • image_path: 字符串
  • reference_strs: 列表,元素类型为字符串
  • reference_tokens: 列表,元素为字符串列表
  • summary: 字符串
  • answers: 序列,元素类型为字符串
  • questions: 序列,元素类型为字符串

数据集分割

  • train:
    • 字节数: 6231221529.0
    • 样本数: 21953
  • validation:
    • 字节数: 924274596.0
    • 样本数: 3166

数据集大小

  • 下载大小: 7126037137
  • 数据集大小: 7155496125.0

许可证

  • cc-by-4.0

任务类别

  • image-to-text

语言

  • en
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作