Emergent Language Corpus Collection (ELCC)

Name: Emergent Language Corpus Collection (ELCC)
Creator: 卡内基梅隆大学语言技术研究所
Published: 2024-07-05 05:23:18
License: 暂无描述

arXiv2024-07-05 更新2024-07-09 收录

下载链接：

https://huggingface.co/datasets/bboldt/elcc

下载链接

链接失效反馈

官方服务：

资源简介：

Emergent Language Corpus Collection (ELCC) 是由卡内基梅隆大学语言技术研究所创建的一个集合，包含了从文献中收集的多种紧急通信系统生成的语料库。这些系统包括各种信号游戏环境和更复杂的任务，如社交推理游戏和具身导航。ELCC 数据集的大小和复杂性各异，涵盖了从简单的信号游戏到复杂的社交互动模拟。数据集的创建过程涉及对不同紧急通信系统的详细分析和元数据标注。ELCC 数据集主要应用于研究紧急语言的结构特性和在下游自然语言处理任务中的预训练模型效用，旨在解决紧急通信系统的比较和分析问题。

Emergent Language Corpus Collection (ELCC) is a corpus collection developed by the Language Technologies Institute of Carnegie Mellon University. It comprises corpora generated by various emergent communication systems, which were collected from academic literature. These systems cover a range of signaling game environments and more complex tasks such as social reasoning games and embodied navigation. The ELCC dataset varies in size and complexity, spanning from simple signaling games to sophisticated social interaction simulations. The construction of the ELCC dataset involves detailed analysis and metadata annotation of diverse emergent communication systems. The ELCC dataset is primarily used to investigate the structural properties of emergent language and the utility of pre-trained models in downstream natural language processing tasks, aiming to address issues related to the comparison and analysis of emergent communication systems.

提供机构：

卡内基梅隆大学语言技术研究所

创建时间：

2024-07-05

原始信息汇总

ELCC

概述

Emergent Language Corpus Collection（ELCC）是一个包含多种紧急通信模拟语料库及其元数据的集合。

数据集使用

用户可以通过git LFS克隆此仓库直接使用数据，或通过mlcroissant库加载数据。安装mlcroissant库及其依赖项的详细信息，请参阅util/environment.yml文件。

示例代码

以下是通过mlcroissant库加载ELCC数据的示例： python import mlcroissant as mlc

cr_url = "https://huggingface.co/datasets/bboldt/elcc/raw/main/croissant.json" dataset = mlc.Dataset(jsonld=cr_url)

整数数组的原始语料库；语料库根据其路径命名；

例如，"systems/babyai-sr/data/GoToObj/corpus.json" 变为 "babyai-sr/GoToObj"。

records = dataset.records(record_set="babyai-sr/GoToObj")

系统级元数据

records = dataset.records(record_set="system-metadata")

系统元数据的原始JSON字符串；某些字段未被Croissant很好地处理，因此如果需要，可以在此处访问它们。

records = dataset.records(record_set="system-metadata-raw")

语料库元数据，特别是由ELCC分析生成的指标

records = dataset.records(record_set="corpus-metadata")

原始语料库元数据

records = dataset.records(record_set="corpus-metadata-raw")

`records`现在可以迭代访问各个元素。

开发

运行单个EC系统

对于每个紧急语言条目，我们提供了包装代码（位于systems/*/code/）以创建可重现的环境并运行生成紧急语言的代码。环境在environment.yml文件中被精确指定；如果希望手动编辑依赖项，可以从environment.editable.yml开始（如果存在）。接下来，运行或查看run.sh或run.py以查看生成语料库所需的命令。

Git子模块

该项目使用git子模块来管理外部依赖项。默认情况下，子模块未被“初始化”，这意味着在克隆项目后它们将是空的。如果希望填充子模块（即指向另一个仓库的目录）以查看或使用其代码，请运行git submodule init path/to/submodule将其标记为已初始化。然后，运行git submodule update以填充已初始化的子模块。运行git submodule deinit -f path/to/submodule使子模块再次为空。

搜集汇总

数据集介绍

构建方式

ELCC数据集的构建方式是将现有文献中开源实现的涌现式通信系统所生成的语料库进行收集。这些系统包括各种信号游戏环境以及更复杂的任务，如社交推理游戏和具身导航。每个语料库都带有元数据注释，描述了源系统的特征以及一系列语料库分析（例如，大小、熵、平均消息长度）。为了方便比较，ELCC提供了各种涌现式通信系统的输出，从而促进了该领域研究的深入和拓展。

特点

ELCC数据集的特点在于其内容的多样性和广泛性，它涵盖了从信号游戏到社交推理游戏等多种类型的涌现式通信系统。此外，ELCC还提供了丰富的元数据，包括系统类型、数据生成方式以及语料库的统计特征，这些信息有助于研究者更好地理解和分析涌现式语言。此外，ELCC的语料库和分析结果都是公开的，这为研究者提供了良好的可重复性，同时也促进了涌现式通信研究领域的合作与交流。

使用方法

使用ELCC数据集的方法主要包括：首先，研究者可以根据自己的研究需求选择合适的语料库；其次，研究者可以利用ELCC提供的元数据对语料库进行分析，例如，计算语料库的熵、平均消息长度等；最后，研究者可以利用ELCC提供的代码和语料库进行进一步的实验和研究。例如，研究者可以使用ELCC的语料库进行涌现式语言的预训练，或者使用ELCC的语料库进行涌现式语言的统计分析和语言结构研究。

背景与挑战

背景概述

在机器学习和自然语言处理领域，涌现式语言的研究旨在模拟从零开始发展通信系统的过程。然而，由于缺乏标准的数据集，研究人员在比较不同涌现式通信系统（ECSs）时面临着挑战。ELCC数据集正是为了填补这一空白而创建的。它是一个包含多个ECSs生成的语言数据集的集合，由Carnegie Mellon大学的Brendon Boldt和David Mortensen在2024年提出。该数据集提供了广泛的语言数据，并附有详尽的元数据描述，使得研究人员能够比较不同ECSs生成的语言，而不必亲自运行这些系统。ELCC的创建旨在促进涌现式语言研究，并为研究人员提供一种新的研究方向，即专注于涌现式语言本身的属性，而非实验装置。ELCC数据集在Hugging Face Datasets上发布，数据和使用代码分别遵循CC BY 4.0和MIT许可。

当前挑战

尽管ELCC数据集为涌现式语言研究提供了宝贵的资源，但仍面临一些挑战。首先，尽管ELCC包含了多个ECSs的输出，但它并不是一个全面的数据集，仍有一些重要的ECSs没有开源实现，无法纳入其中。其次，数据集仅提供未标注的语言数据，缺乏对语义的参考，限制了可以进行的分析类型。此外，ELCC数据集的构建过程也面临挑战，包括如何确保数据的可重复性和如何处理不同ECSs之间可能存在的差异。为了应对这些挑战，需要社区的努力，包括提供更多开源的ECSs实现，以及直接向ELCC贡献数据。

常用场景

经典使用场景

ELCC数据集是用于研究涌现式语言的宝贵资源，它包含了从开源的涌现式通信系统中收集的大量语料库。这些系统涵盖了各种信号游戏环境以及更复杂的任务，如社交推理游戏和具身导航。每个语料库都带有描述其源系统特征的元数据以及一系列语料库分析（例如，大小、熵、平均消息长度）。ELCC数据集为研究者提供了丰富的涌现式语言语料库，使得研究者可以专注于分析这些语言本身的属性，而无需花费大量时间在实验装置的设计和实现上。

衍生相关工作

ELCC数据集衍生了多项相关工作，例如，它使得研究者能够专注于分析涌现式语言的词汇属性，研究其静态属性和模式，如Zipf定律。ELCC数据集还扩展了涌现式语言在机器学习中的应用范围，例如，评估涌现式语言在预训练模型以进行下游NLP任务中的适用性。此外，ELCC数据集还提供了代码来生成语料库和元数据，这有助于提高现有涌现式通信系统实现的可重复性，并支持进一步的研究。

数据集最近研究