five

The New Yorker Caption Contest corpus

收藏
arXiv2023-07-06 更新2024-06-21 收录
下载链接:
https://capcon.dev/
下载链接
链接失效反馈
官方服务:
资源简介:
《纽约客》标题大赛数据集是一个包含14年每周《纽约客》标题大赛内容的综合资源。每个大赛包括一幅未标题的漫画、当周的参赛作品、由《纽约客》编辑选出的三个决赛作品,以及通过众包收集的每个提交作品的质量估计。数据集主要来源于Jain et al. (2020),从中获取了约250个大赛的数据,总计约150万个独特标题。这些数据不仅用于研究AI模型对幽默的理解,还用于开发和测试模型在匹配笑话与漫画、识别获胜标题以及解释为什么某个标题有趣等任务上的表现。

The New Yorker Caption Contest Dataset is a comprehensive resource encompassing 14 years of weekly New Yorker Caption Contest content. Each contest consists of an untitled cartoon, the week's submitted captions, three finalist entries selected by The New Yorker's editors, and quality estimates for each submission collected via crowdsourcing. The dataset is primarily sourced from Jain et al. (2020), from which data for approximately 250 contests and a total of around 1.5 million unique captions were acquired. This resource has been utilized not only for researching AI models' understanding of humor, but also for developing and evaluating models on tasks such as matching jokes to cartoons, identifying winning captions, and explaining why a given caption is humorous.
提供机构:
艾伦人工智能研究所
创建时间:
2022-09-14
搜集汇总
背景与挑战
背景概述
该数据集包含14年每周《纽约客》标题大赛的内容,涵盖约250个大赛和150万个独特标题,用于研究AI模型对幽默的理解及相关任务表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作