DIALECTBENCH

arXiv2024-03-17 更新2024-07-30 收录

下载链接：

https://github.com/ffaisal93/DialectBench

下载链接

链接失效反馈

官方服务：

资源简介：

首个针对语言变体的大型NLP基准，集合了多种任务相关的语言变体数据集（涵盖10种文本级任务，涉及281种语言变体），用于全面评估NLP系统在不同语言变体上的性能。

The first large-scale NLP benchmark focused on language varieties integrates multiple task-relevant datasets spanning 10 text-level tasks and encompassing 281 distinct language varieties, and is designed to comprehensively evaluate the performance of NLP systems across diverse language varieties.

创建时间：

2024-03-17

原始信息汇总

DialectBench 数据集概述

数据下载

下载所有可用数据（不包括机器翻译和可通过 Hugging Face 加载的数据） bash bash download_data.sh --task all
下载土耳其方言机器翻译数据 bash bash download_data.sh --task machine_translation_turkish

任务特定训练和评估

依赖解析 (Dependency Parsing)

训练

在预训练的 mBERT 和 XLMR 上同时微调所有可用的特定语言模型 bash ./all_commands.sh --action train_udp --execute bash
微调单个特定语言模型 bash bash install.sh --task train_udp --lang UD_English-EWT --MODEL_NAME mbert

预测

对所有微调模型进行预测（适用于预训练的 mBERT 和 XLMR），如果特定语言变体没有训练数据，则从英语变体 "UD_English-EWT" 进行零样本预测 bash ./all_commands.sh --action predict_udp --execute bash

词性标注 (Parts of Speech Tagging)

训练

在预训练的 mBERT 和 XLMR 上同时微调所有可用的特定语言模型 bash ./all_commands.sh --action train_pos --execute bash

预测

对所有微调模型进行预测（适用于预训练的 mBERT 和 XLMR），如果特定语言变体没有训练数据，则从英语变体 "UD_English-EWT" 进行零样本预测 bash ./all_commands.sh --action predict_pos --execute bash

命名实体识别 (Named Entity Recognition)

训练

在所有可用语言变体上同时进行内部变体微调（适用于预训练的 mBERT 和 XLMR） bash ./all_commands.sh --action train_pos --execute bash
仅对单个语言进行内部变体微调 bash bash install.sh --task train_ner --lang bokmaal --MODEL_NAME bert --dataset wikiann

预测

使用所有内部变体微调模型进行预测（适用于预训练的 mBERT 和 XLMR），并使用英语变体 en 进行零样本预测 bash ./all_commands.sh --action predict_ner --execute bash

主题分类 (Topic Classification)

训练

在不同语言集群中选择变体进行内部集群微调（适用于预训练的 mBERT 和 XLMR） bash ./all_commands.sh --action train_topic_classification_lm --execute bash

预测

在不同语言集群中对所有可用变体进行推理（适用于预训练的 mBERT 和 XLMR） bash ./all_commands.sh --action predict_topic_classification_lm --execute bash

自然语言推理 (Natural Language Inference)

训练

从英语进行零样本微调（适用于预训练的 mBERT 和 XLMR） bash ./all_commands.sh --action train_nli --execute bash

预测

在不同语言集群中对所有可用变体进行推理（适用于预训练的 mBERT 和 XLMR） bash ./all_commands.sh --action predict_nli --execute bash

情感分析 (Sentiment Analysis)

训练

仅支持阿拉伯方言情感分析 bash ./all_commands.sh --action train_sa --execute bash

预测

对每个特定变体模型进行评估 bash ./all_commands.sh --action predict_sa --execute bash

方言识别 (Dialect Identification)

训练

微调阿拉伯语、英语、普通话、葡萄牙语、西班牙语和瑞士方言识别模型（基于 mBERT 和 XLMR） bash ./all_commands.sh --action train_did --execute bash

预测

对所有微调模型进行预测 bash ./all_commands.sh --action predict_did_lm --execute bash

机器阅读理解 (Machine Reading Comprehension)

训练

进行阅读理解训练 bash ./all_commands.sh --action train_reading_comprehension --execute bash

预测

进行阅读理解预测 bash ./all_commands.sh --action predict_reading_comprehension --execute bash

抽取式问答 (Extractive Question Answering)

训练

在所有语言上同时进行微调，以及单个语言及其变体 bash ./all_commands.sh --action train_sdqa --execute bash

预测

进行抽取式问答预测 bash ./all_commands.sh --action predict_sdqa --execute bash

5,000+

优质数据集

54 个

任务类型

进入经典数据集