DIALECTBENCH
收藏arXiv2024-03-17 更新2024-07-30 收录
下载链接:
https://github.com/ffaisal93/DialectBench
下载链接
链接失效反馈官方服务:
资源简介:
首个针对语言变体的大型NLP基准,集合了多种任务相关的语言变体数据集(涵盖10种文本级任务,涉及281种语言变体),用于全面评估NLP系统在不同语言变体上的性能。
The first large-scale NLP benchmark focused on language varieties integrates multiple task-relevant datasets spanning 10 text-level tasks and encompassing 281 distinct language varieties, and is designed to comprehensively evaluate the performance of NLP systems across diverse language varieties.
创建时间:
2024-03-17
原始信息汇总
DialectBench 数据集概述
数据下载
-
下载所有可用数据(不包括机器翻译和可通过 Hugging Face 加载的数据) bash bash download_data.sh --task all
-
下载土耳其方言机器翻译数据 bash bash download_data.sh --task machine_translation_turkish
任务特定训练和评估
依赖解析 (Dependency Parsing)
训练
-
在预训练的 mBERT 和 XLMR 上同时微调所有可用的特定语言模型 bash ./all_commands.sh --action train_udp --execute bash
-
微调单个特定语言模型 bash bash install.sh --task train_udp --lang UD_English-EWT --MODEL_NAME mbert
预测
- 对所有微调模型进行预测(适用于预训练的 mBERT 和 XLMR),如果特定语言变体没有训练数据,则从英语变体
"UD_English-EWT"进行零样本预测 bash ./all_commands.sh --action predict_udp --execute bash
词性标注 (Parts of Speech Tagging)
训练
- 在预训练的 mBERT 和 XLMR 上同时微调所有可用的特定语言模型 bash ./all_commands.sh --action train_pos --execute bash
预测
- 对所有微调模型进行预测(适用于预训练的 mBERT 和 XLMR),如果特定语言变体没有训练数据,则从英语变体
"UD_English-EWT"进行零样本预测 bash ./all_commands.sh --action predict_pos --execute bash
命名实体识别 (Named Entity Recognition)
训练
-
在所有可用语言变体上同时进行内部变体微调(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action train_pos --execute bash
-
仅对单个语言进行内部变体微调 bash bash install.sh --task train_ner --lang bokmaal --MODEL_NAME bert --dataset wikiann
预测
- 使用所有内部变体微调模型进行预测(适用于预训练的 mBERT 和 XLMR),并使用英语变体
en进行零样本预测 bash ./all_commands.sh --action predict_ner --execute bash
主题分类 (Topic Classification)
训练
- 在不同语言集群中选择变体进行内部集群微调(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action train_topic_classification_lm --execute bash
预测
- 在不同语言集群中对所有可用变体进行推理(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action predict_topic_classification_lm --execute bash
自然语言推理 (Natural Language Inference)
训练
- 从英语进行零样本微调(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action train_nli --execute bash
预测
- 在不同语言集群中对所有可用变体进行推理(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action predict_nli --execute bash
情感分析 (Sentiment Analysis)
训练
- 仅支持阿拉伯方言情感分析 bash ./all_commands.sh --action train_sa --execute bash
预测
- 对每个特定变体模型进行评估 bash ./all_commands.sh --action predict_sa --execute bash
方言识别 (Dialect Identification)
训练
- 微调阿拉伯语、英语、普通话、葡萄牙语、西班牙语和瑞士方言识别模型(基于 mBERT 和 XLMR) bash ./all_commands.sh --action train_did --execute bash
预测
- 对所有微调模型进行预测 bash ./all_commands.sh --action predict_did_lm --execute bash
机器阅读理解 (Machine Reading Comprehension)
训练
- 进行阅读理解训练 bash ./all_commands.sh --action train_reading_comprehension --execute bash
预测
- 进行阅读理解预测 bash ./all_commands.sh --action predict_reading_comprehension --execute bash
抽取式问答 (Extractive Question Answering)
训练
- 在所有语言上同时进行微调,以及单个语言及其变体 bash ./all_commands.sh --action train_sdqa --execute bash
预测
- 进行抽取式问答预测 bash ./all_commands.sh --action predict_sdqa --execute bash



