fschieber/wit-captions
收藏Hugging Face2024-03-15 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/fschieber/wit-captions
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从原始的WIT数据集派生而来的,经过了一系列的修改。首先,删除了除image_url、caption_reference_description、caption_attribution_description、mime_type、original_height、original_width之外的所有列。然后,移除了所有没有caption_reference_description或caption_attribution_description的行。接着,对image_url进行了去重处理,保留了具有最长caption_reference_description的条目。新增了一个text列,该列包含caption_reference_description和caption_attribution_description中最长的描述。最后,数据集被分割成8个文件,总共包含11,419,525行。该数据集的目的是用于生成一个新的数据集,其中包含text列的嵌入向量。
该数据集是从原始的WIT数据集派生而来的,经过了一系列的修改。首先,删除了除image_url、caption_reference_description、caption_attribution_description、mime_type、original_height、original_width之外的所有列。然后,移除了所有没有caption_reference_description或caption_attribution_description的行。接着,对image_url进行了去重处理,保留了具有最长caption_reference_description的条目。新增了一个text列,该列包含caption_reference_description和caption_attribution_description中最长的描述。最后,数据集被分割成8个文件,总共包含11,419,525行。该数据集的目的是用于生成一个新的数据集,其中包含text列的嵌入向量。
提供机构:
fschieber
原始信息汇总
数据集概述
数据集来源与处理
- 该数据集源自原始的WIT数据集,经过以下处理:
- 保留了image_url, caption_reference_description, caption_attribution_description, mime_type, original_height, original_width列,移除了其他所有列。
- 移除了没有caption_reference_description或caption_attribution_description的行。
- 根据image_url去重,保留了具有最长caption_reference_description的记录。
- 新增了text列,该列包含caption_reference_description和caption_attribution_description中较长的描述文本。
- 注意:caption_attribution_description可能包含多种语言,使用简单正则表达式解析并选择最长语言描述,可能不完全准确或有遗漏。
数据集结构
- 数据集最终被分割成8个文件。
- 所有8个文件总计包含11,419,525行数据。
数据集用途
- 该数据集旨在用于生成text列的嵌入向量。



