mesolitica/translate-DenseFusion-1M
收藏数据集概述
基本信息
- 名称: translate-DenseFusion-1M
- 别名: mesolitica/translate-DenseFusion-1M
- 描述: 该数据集是从 https://hf-mirror.com/datasets/BAAI/DenseFusion-1M 翻译成马来语的版本,使用的是基于 https://mesolitica.com/translation 的基础模型。这是一个适合 OCR 的优秀数据集,带有描述,确保翻译后的文本也保持相同的 OCR 特性。
- 创建者: Mesolitica
- 关键词: Malay, 100K - 1M, json, Image, Text, Datasets, Dask, Croissant, 🇺🇸 Region: US
- URL: https://hf-mirror.com/datasets/mesolitica/translate-DenseFusion-1M
数据格式
- 分布:
-
类型: cr:FileObject
-
名称: repo
-
描述: HF Mirror git 仓库。
-
内容 URL: https://hf-mirror.com/datasets/mesolitica/translate-DenseFusion-1M/tree/refs%2Fconvert%2Fparquet
-
编码格式: git+https
-
类型: cr:FileSet
-
名称: parquet-files-for-config-default
-
描述: 由 HF Mirror 转换的基础 Parquet 文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: default//.parquet
-
数据字段
- 记录集:
- 类型: cr:RecordSet
- 名称: default
- 描述: mesolitica/translate-DenseFusion-1M - default 子集
- 字段:
-
类型: cr:Field
-
名称: default/image_id
-
描述: HF Mirror parquet 文件中的 image_id 列。
-
数据类型: sc:Text
-
来源: 从 parquet-files-for-config-default 提取的 image_id 列。
-
类型: cr:Field
-
名称: default/caption
-
描述: HF Mirror parquet 文件中的 caption 列。
-
数据类型: sc:Text
-
来源: 从 parquet-files-for-config-default 提取的 caption 列。
-
类型: cr:Field
-
名称: default/url
-
描述: HF Mirror parquet 文件中的 url 列。
-
数据类型: sc:Text
-
来源: 从 parquet-files-for-config-default 提取的 url 列。
-
类型: cr:Field
-
名称: default/caption_ms
-
描述: HF Mirror parquet 文件中的 caption_ms 列。
-
数据类型: sc:Text
-
来源: 从 parquet-files-for-config-default 提取的 caption_ms 列。
-
符合标准
- 符合: http://mlcommons.org/croissant/1.0



