five

mesolitica/translate-DenseFusion-1M

收藏
Hugging Face2024-07-21 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/translate-DenseFusion-1M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过将BAAI/DenseFusion-1M数据集翻译成马来语创建的,使用了mesolitica.com的翻译基础模型,并确保翻译后的文本仍然适用于OCR(光学字符识别)。数据集主要用于OCR任务,包含马来语的文本数据。

A nice dataset for OCR with description, detailing the process of translating text to Malay using the mesolitica.com translation model, ensuring the translated text maintains the same OCR characteristics.
提供机构:
mesolitica
原始信息汇总

数据集概述

基本信息

  • 名称: translate-DenseFusion-1M
  • 别名: mesolitica/translate-DenseFusion-1M
  • 描述: 该数据集是从 https://hf-mirror.com/datasets/BAAI/DenseFusion-1M 翻译成马来语的版本,使用的是基于 https://mesolitica.com/translation 的基础模型。这是一个适合 OCR 的优秀数据集,带有描述,确保翻译后的文本也保持相同的 OCR 特性。
  • 创建者: Mesolitica
  • 关键词: Malay, 100K - 1M, json, Image, Text, Datasets, Dask, Croissant, 🇺🇸 Region: US
  • URL: https://hf-mirror.com/datasets/mesolitica/translate-DenseFusion-1M

数据格式

  • 分布:
    • 类型: cr:FileObject

    • 名称: repo

    • 描述: HF Mirror git 仓库。

    • 内容 URL: https://hf-mirror.com/datasets/mesolitica/translate-DenseFusion-1M/tree/refs%2Fconvert%2Fparquet

    • 编码格式: git+https

    • 类型: cr:FileSet

    • 名称: parquet-files-for-config-default

    • 描述: 由 HF Mirror 转换的基础 Parquet 文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。

    • 包含于: repo

    • 编码格式: application/x-parquet

    • 包含: default//.parquet

数据字段

  • 记录集:
    • 类型: cr:RecordSet
    • 名称: default
    • 描述: mesolitica/translate-DenseFusion-1M - default 子集
    • 字段:
      • 类型: cr:Field

      • 名称: default/image_id

      • 描述: HF Mirror parquet 文件中的 image_id 列。

      • 数据类型: sc:Text

      • 来源: 从 parquet-files-for-config-default 提取的 image_id 列。

      • 类型: cr:Field

      • 名称: default/caption

      • 描述: HF Mirror parquet 文件中的 caption 列。

      • 数据类型: sc:Text

      • 来源: 从 parquet-files-for-config-default 提取的 caption 列。

      • 类型: cr:Field

      • 名称: default/url

      • 描述: HF Mirror parquet 文件中的 url 列。

      • 数据类型: sc:Text

      • 来源: 从 parquet-files-for-config-default 提取的 url 列。

      • 类型: cr:Field

      • 名称: default/caption_ms

      • 描述: HF Mirror parquet 文件中的 caption_ms 列。

      • 数据类型: sc:Text

      • 来源: 从 parquet-files-for-config-default 提取的 caption_ms 列。

符合标准

  • 符合: http://mlcommons.org/croissant/1.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作