coco-2014, Conceptual Captions, paren-zipf.pt, wiki-es.pt, wiki-da.pt, wiki-eu.pt, wiki-ja.pt, wiki-ro.pt, wiki-fi.pt, wiki-id.pt, wiki-kk.pt, wiki-he.pt, wiki-ur.pt, wiki-fa.pt

github2022-03-25 更新2024-05-31 收录

下载链接：

https://github.com/ysymyth/ec-nl

下载链接

链接失效反馈

官方服务：

资源简介：

coco-2014: 图像特征数据集，用于EC预训练。Conceptual Captions: 概念标题数据集，用于EC预训练。paren-zipf.pt: 嵌套括号的常规语言数据集，用于预训练。wiki-es.pt: 西班牙语维基百科数据集，用于预训练。wiki-da.pt: 丹麦语维基百科数据集，用于微调。wiki-eu.pt: 巴斯克语维基百科数据集，用于微调。wiki-ja.pt: 日语维基百科数据集，用于微调。wiki-ro.pt: 罗马尼亚语维基百科数据集，用于微调。wiki-fi.pt: 芬兰语维基百科数据集，用于微调。wiki-id.pt: 印度尼西亚语维基百科数据集，用于微调。wiki-kk.pt: 哈萨克语维基百科数据集，用于微调。wiki-he.pt: 希伯来语维基百科数据集，用于微调。wiki-ur.pt: 乌尔都语维基百科数据集，用于微调。wiki-fa.pt: 波斯语维基百科数据集，用于微调。

coco-2014: An image feature dataset used for EC pre-training. Conceptual Captions: A conceptual caption dataset used for EC pre-training. paren-zipf.pt: A regular language dataset with nested parentheses used for pre-training. wiki-es.pt: A Spanish Wikipedia dataset used for pre-training. wiki-da.pt: A Danish Wikipedia dataset used for fine-tuning. wiki-eu.pt: A Basque Wikipedia dataset used for fine-tuning. wiki-ja.pt: A Japanese Wikipedia dataset used for fine-tuning. wiki-ro.pt: A Romanian Wikipedia dataset used for fine-tuning. wiki-fi.pt: A Finnish Wikipedia dataset used for fine-tuning. wiki-id.pt: An Indonesian Wikipedia dataset used for fine-tuning. wiki-kk.pt: A Kazakh Wikipedia dataset used for fine-tuning. wiki-he.pt: A Hebrew Wikipedia dataset used for fine-tuning. wiki-ur.pt: An Urdu Wikipedia dataset used for fine-tuning. wiki-fa.pt: A Persian Wikipedia dataset used for fine-tuning.

创建时间：

2022-02-07

原始信息汇总

EC-NL 数据集概述

数据集内容

数据集包含以下内容：

图像特征：
- image_features：包含从预训练的ResNet模型中提取的COCO-2014 (coco.pt) 和Conceptual Captions (cc.pt) 数据集的图像特征，用于EC预训练。
语言模型语料库：
- lm_corpora：用于语言模型迁移实验的语料库。

名称	用途	备注
cc.pt	预训练	紧急语言
paren-zipf.pt	预训练	嵌套括号的常规语言
wiki-es.pt	预训练	西班牙语（IE-Romance）维基百科
wiki-da.pt	微调	丹麦语（IE-Germanic）维基百科
wiki-eu.pt	微调	巴斯克语（Basque）维基百科
wiki-ja.pt	微调	日语（Japanese）维基百科
wiki-ro.pt	微调	罗马尼亚语（IE-Romance）维基百科
wiki-fi.pt	微调	芬兰语（Uralic）维基百科
wiki-id.pt	微调	印度尼西亚语（Austronesian）维基百科
wiki-kk.pt	微调	哈萨克语（Turkic）维基百科
wiki-he.pt	微调	希伯来语（Afro-Asiatic）维基百科
wiki-ur.pt	微调	乌尔都语（IE-Indic）维基百科
wiki-fa.pt	微调	波斯语（IE-Iranian）维基百科

实验设置

紧急通信（EC）游戏

数据下载：从Google Drive下载image_features到./ec-pretrain/data。
训练命令： bash cd ec-game python train.py
主要选项：
- --dataset：使用Conceptual Captions (cc) 或MS-COCO (coco_2014) 数据集。
- --vocab_size：词汇表大小（默认4035）。
- --seq_len：序列长度限制（默认15）。

语言模型迁移

数据下载：从Google Drive下载lm_corpora到./ec-pretrain/data。
预训练命令： bash export size=2 # 2,5,10,15,30 export pt_name="wiki-es" # "paren-zipf", "cc" . pretrain.sh
微调命令： bash export size=2 # 2,5,10,15,30 export pt_name="wiki-es" # "paren-zipf", "cc" export ft_name="wiki-ro" export ckpt=3000 . finetune.sh
变量含义：
- size：预训练语料库的标记大小（百万）（[2, 5, 10, 15, 30]）。
- pt_name：预训练语料库的名称（["wiki-es", "paren-zipf", "cc"]）。
- ft_name：微调语料库的名称（["wiki-ro", "wiki-da.pt"]）。
- ckpt：用于微调的预训练检查点（默认3000）。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多语言维基百科语料库和预训练的图像特征数据，涵盖了多种语言和领域。具体而言，数据集通过从MS COCO和Conceptual Captions中提取图像特征，并结合不同语言的维基百科文本进行预训练和微调。预训练阶段使用了西班牙语、丹麦语、巴斯克语等多种语言的维基百科数据，微调阶段则针对特定语言进行优化。此外，数据集还包含了一种基于嵌套括号的规则语言，用于探索语言模型的泛化能力。

特点

该数据集的特点在于其多语言性和跨领域的应用潜力。它不仅涵盖了多种自然语言（如西班牙语、日语、芬兰语等），还包含了一种人工构造的规则语言（paren-zipf.pt），用于研究语言模型的泛化能力。数据集中的图像特征来自MS COCO和Conceptual Captions，这些特征与文本数据结合，能够支持多模态任务的研究。此外，数据集的构建方式允许用户在不同的预训练和微调阶段灵活选择语料库，从而适应不同的研究需求。

使用方法

该数据集的使用方法主要分为两个阶段：预训练和微调。在预训练阶段，用户可以选择不同的语料库（如wiki-es.pt、paren-zipf.pt等）进行模型训练，并通过调整参数（如词汇量、序列长度等）来优化模型性能。在微调阶段，用户可以选择特定的语言语料库（如wiki-ro.pt、wiki-da.pt等）进行进一步训练，以提升模型在特定任务上的表现。数据集的使用依赖于PyTorch和Transformers等工具，用户可以通过提供的脚本（如pretrain.sh和finetune.sh）快速启动训练过程。

背景与挑战

背景概述

coco-2014数据集是计算机视觉领域中的重要资源，由微软团队于2014年发布，旨在推动图像识别与理解的研究。该数据集包含超过30万张图像，每张图像均标注了对象类别、位置及语义描述，广泛应用于目标检测、图像分割及图像生成等任务。Conceptual Captions数据集则由谷歌团队于2018年推出，专注于图像与文本的跨模态理解，提供了超过300万对图像与描述文本，为视觉语言模型的研究提供了丰富的数据支持。这些数据集的出现极大地推动了计算机视觉与自然语言处理的交叉领域研究，尤其是在多模态学习与生成任务中展现了显著的影响力。

当前挑战

coco-2014与Conceptual Captions数据集在构建与应用中面临多重挑战。首先，图像标注的准确性与一致性是核心问题，尤其是在多类别、多对象的复杂场景中，标注的精细度直接影响模型的性能。其次，跨模态对齐的难度显著，图像与文本之间的语义关联需要高度精确的标注与模型设计，这对数据集的构建提出了更高的要求。此外，数据集的规模与多样性也是关键挑战，如何在保证数据质量的同时扩展数据量，以覆盖更多场景与语言类型，是当前研究的重点。最后，数据集的更新与维护同样面临挑战，随着技术的进步与应用场景的变化，数据集需要不断迭代以适应新的需求。

常用场景

经典使用场景

在自然语言处理领域，coco-2014和Conceptual Captions数据集常被用于图像描述生成任务。通过预训练的ResNet提取图像特征，这些数据集为模型提供了丰富的视觉和语言信息，使得模型能够学习如何将图像内容转化为自然语言描述。这种任务不仅推动了计算机视觉与自然语言处理的交叉研究，还为自动生成图像描述的实际应用奠定了基础。

衍生相关工作

基于coco-2014和Conceptual Captions数据集，许多经典的研究工作得以展开。例如，EC-NL项目通过将涌现语言与自然语言进行语料库转移，探索了多模态学习的新方法。此外，这些数据集还催生了一系列图像描述生成模型，如基于Transformer的架构和强化学习框架，这些模型在生成质量和多样性方面取得了显著进展。

数据集最近研究