five

astroza/fintualist-mejor-bajada-captioning

收藏
Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/astroza/fintualist-mejor-bajada-captioning
下载链接
链接失效反馈
官方服务:
资源简介:
--- pretty_name: Fintualist Mejor Bajada Captioning language: - es - en license: other size_categories: - n<1K task_categories: - image-to-text - translation tags: - image - text - tabular - datasets - humor - spanish - bilingual configs: - config_name: captions default: true data_files: - split: train path: captions/train.parquet - config_name: issues data_files: - split: train path: issues/train.parquet --- # Fintualist Mejor Bajada Captioning Public bilingual dataset built from [Fintualist](https://fintualist.com/), the editorial and newsletter publication from Fintual. "La mejor bajada" is Fintualist's recurring cartoon caption contest: each issue publishes an image and readers submit joke captions, with the winning captions usually announced in the following issue. This dataset contains the original winning captions in Spanish, a normalized Spanish version, an English translation, a short scene description for the image, and a compact humor taxonomy inferred from the `lmfaoooo` basis. ## Repository - Hub repo: `astroza/fintualist-mejor-bajada-captioning` - Source code: `https://github.com/aastroza/fintualist-captioning` - Source publication: `https://fintualist.com/` - OpenAI model used for enrichment: `gpt-4o-2024-11-20` - Issues with winners: `127` - Caption rows: `339` - Coverage window: `2022-11-22` to `2026-01-20` ## Configs ### `captions` One row per winning caption. This is the main subset if you want image-caption pairs with both Spanish and English text. Main columns: - `image` - `caption_es_original` - `caption_es_normalized` - `caption_en` - `image_description_es` - `image_description_en` - `author` - `winner_rank` - `winner_source` - `humor_features` - `humor_feature_count` - `humor_taxonomy_basis` In addition to these compact fields, the `captions` config also exposes one binary column per humor feature (for example `humor_clear_punchline`, `humor_economy_of_words`, and `humor_subverting_expectations`). ### `issues` One row per original issue with the shared image and all winning captions grouped as JSON-encoded lists. This subset is separate from `captions` because it serves a different unit of analysis: - `captions` is caption-level, with one training example per winning caption. - `issues` is issue-level, with one row per cartoon and all winning captions grouped together. Issue-level taxonomy fields: - `captions_humor_features` - `humor_features_union` - `humor_feature_counts` ## How it was built 1. Scrape Fintualist's `/chile/mejor-bajada/` posts and download the corresponding image. 2. Recover winner captions from page metadata, OCR, and Gmail-based fallback logic from this repository. 3. Use the OpenAI Responses API with structured outputs and `gpt-4o-2024-11-20` to: - describe the image in Spanish and English, - repair OCR or encoding artifacts in the Spanish captions, - translate the repaired captions to English, - classify each normalized caption against the 17-feature `lmfaoooo` humor taxonomy. ## Source breakdown - `gmail_ocr`: 60 issues - `ocr`: 34 issues - `gmail_ocr_direct`: 19 issues - `meta`: 14 issues ## Limitations - The original captions are user-generated jokes and may contain slang, references, or named entities that do not translate literally. - Some captions come from OCR and may still contain residual errors even after LLM normalization. - The English translations aim to preserve tone, not strict literalness.
提供机构:
astroza
搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言幽默理解的研究领域中,Fintualist Mejor Bajada Captioning数据集通过系统化的流程构建而成。首先,从Fintualist编辑通讯的漫画标题竞赛专栏中,爬取相关帖文并下载对应的漫画图像。随后,通过页面元数据提取、光学字符识别技术以及基于Gmail的备用逻辑,恢复获奖的西班牙语标题文本。最后,利用OpenAI的GPT-4o模型进行结构化处理,包括生成西班牙语和英语的图像描述、修复文本中的OCR或编码错误、将修复后的标题翻译为英语,并依据17个特征的幽默分类体系对每个标题进行归类,从而形成一个双语多模态的数据集合。
特点
该数据集在幽默计算与跨语言生成任务中展现出独特价值。其核心特点在于提供了西班牙语原始标题、标准化西班牙语版本、英语翻译以及图像场景描述,形成了完整的双语对齐结构。同时,数据集引入了基于lmfaoooo基础的紧凑幽默分类法,为每一条标题标注了幽默特征,如清晰的笑点、简洁用词或颠覆预期等,支持细粒度的幽默分析。数据以两种配置组织:captions配置以标题为单位,适用于图像-标题对任务;issues配置以漫画期数为单位,便于整体内容分析,增强了数据集的灵活性与研究深度。
使用方法
在自然语言处理与计算机视觉的交叉应用中,该数据集支持多种实验场景。研究人员可利用captions配置中的图像与双语标题对,训练或评估图像描述生成、机器翻译或跨语言检索模型。幽默特征标签为幽默检测、分类及生成任务提供了监督信号,有助于探索幽默的语义结构与跨文化表达。issues配置则适用于分析单幅漫画的多元幽默表达,支持内容聚合研究。使用前需注意标题包含用户生成的俚语或文化指涉,翻译可能侧重语气而非字面忠实,且部分文本经过OCR处理,可能存在残余误差,建议结合数据清洗与验证步骤以确保实验可靠性。
背景与挑战
背景概述
在自然语言处理与多模态人工智能领域,跨语言图像描述生成任务日益受到关注,其核心在于将视觉信息转化为连贯且符合文化语境的文本描述。Fintualist Mejor Bajada Captioning数据集由Fintual机构于2022年至2026年间构建,源自其编辑出版物Fintualist中的漫画标题竞赛。该数据集聚焦于西班牙语与英语双语环境,通过收集读者提交的幽默标题,并利用先进语言模型进行标准化、翻译与幽默特征标注,旨在推动图像到文本生成、跨语言翻译及幽默计算等研究方向的发展。其独特之处在于融合了视觉内容、用户创作文本及结构化幽默分类,为多模态语义理解提供了丰富的实验资源。
当前挑战
该数据集致力于解决跨语言图像幽默描述生成这一复杂问题,其挑战主要体现在语义转换与文化适配层面。用户生成的原始标题常包含俚语、文化专有项及非字面表达,使得自动化翻译难以准确捕捉幽默精髓;同时,构建过程中依赖光学字符识别技术提取文本,残留错误可能影响数据质量,即便经过大语言模型修正,仍存在语义失真风险。此外,幽默特征的标注基于预设分类体系,可能无法全面涵盖多样化的喜剧表达形式,限制了模型对幽默细微差别的感知能力。
常用场景
经典使用场景
在跨语言幽默生成与理解的研究领域,Fintualist Mejor Bajada Captioning数据集提供了一个独特的双语图像-文本对资源。该数据集的核心应用场景在于训练和评估多模态模型,特别是针对西班牙语和英语的幽默字幕生成任务。研究者可以利用其中的图像、原始西班牙语字幕、标准化版本及英语翻译,探索视觉内容与幽默文本之间的关联机制,从而推动图像描述系统在创意和跨文化语境下的性能提升。
实际应用
在实际应用层面,该数据集可服务于内容创作与娱乐产业。例如,媒体机构或幽默内容平台能够利用基于此数据集训练的模型,自动为漫画或插图生成吸引人的双语字幕,增强内容的可访问性与传播广度。同时,教育技术领域也可借此开发语言学习工具,通过幽默实例帮助学习者掌握西班牙语与英语中的文化隐喻和表达方式,提升跨文化交际能力。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作。一方面,研究者基于其双语结构与幽默特征,开发了先进的跨模态对齐模型,用于改善图像到幽默文本的生成质量。另一方面,该数据集的幽默分类体系激发了新的计算幽默学框架,促进了自动笑话生成与评估系统的创新。此外,部分工作利用其OCR修复与翻译流程,推动了低资源语言处理中数据增强与噪声鲁棒性方法的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作