Emergent Language Corpus Collection (ELCC)
收藏ELCC
概述
Emergent Language Corpus Collection(ELCC)是一个包含多种紧急通信模拟语料库及其元数据的集合。
数据集使用
用户可以通过git LFS克隆此仓库直接使用数据,或通过mlcroissant库加载数据。安装mlcroissant库及其依赖项的详细信息,请参阅util/environment.yml文件。
示例代码
以下是通过mlcroissant库加载ELCC数据的示例: python import mlcroissant as mlc
cr_url = "https://huggingface.co/datasets/bboldt/elcc/raw/main/croissant.json" dataset = mlc.Dataset(jsonld=cr_url)
整数数组的原始语料库;语料库根据其路径命名;
例如,"systems/babyai-sr/data/GoToObj/corpus.json" 变为 "babyai-sr/GoToObj"。
records = dataset.records(record_set="babyai-sr/GoToObj")
系统级元数据
records = dataset.records(record_set="system-metadata")
系统元数据的原始JSON字符串;某些字段未被Croissant很好地处理,因此如果需要,可以在此处访问它们。
records = dataset.records(record_set="system-metadata-raw")
语料库元数据,特别是由ELCC分析生成的指标
records = dataset.records(record_set="corpus-metadata")
原始语料库元数据
records = dataset.records(record_set="corpus-metadata-raw")
records现在可以迭代访问各个元素。
开发
运行单个EC系统
对于每个紧急语言条目,我们提供了包装代码(位于systems/*/code/)以创建可重现的环境并运行生成紧急语言的代码。环境在environment.yml文件中被精确指定;如果希望手动编辑依赖项,可以从environment.editable.yml开始(如果存在)。接下来,运行或查看run.sh或run.py以查看生成语料库所需的命令。
Git子模块
该项目使用git子模块来管理外部依赖项。默认情况下,子模块未被“初始化”,这意味着在克隆项目后它们将是空的。如果希望填充子模块(即指向另一个仓库的目录)以查看或使用其代码,请运行git submodule init path/to/submodule将其标记为已初始化。然后,运行git submodule update以填充已初始化的子模块。运行git submodule deinit -f path/to/submodule使子模块再次为空。

- 1ELCC: the Emergent Language Corpus Collection卡内基梅隆大学语言技术研究所 · 2024年



