five

DIALECTBENCH

收藏
arXiv2024-03-17 更新2024-07-30 收录
下载链接:
https://github.com/ffaisal93/DialectBench
下载链接
链接失效反馈
官方服务:
资源简介:
首个针对语言变体的大型NLP基准,集合了多种任务相关的语言变体数据集(涵盖10种文本级任务,涉及281种语言变体),用于全面评估NLP系统在不同语言变体上的性能。

The first large-scale NLP benchmark focused on language varieties integrates multiple task-relevant datasets spanning 10 text-level tasks and encompassing 281 distinct language varieties, and is designed to comprehensively evaluate the performance of NLP systems across diverse language varieties.
创建时间:
2024-03-17
原始信息汇总

DialectBench 数据集概述

数据下载

  • 下载所有可用数据(不包括机器翻译和可通过 Hugging Face 加载的数据) bash bash download_data.sh --task all

  • 下载土耳其方言机器翻译数据 bash bash download_data.sh --task machine_translation_turkish

任务特定训练和评估

依赖解析 (Dependency Parsing)

训练

  • 在预训练的 mBERT 和 XLMR 上同时微调所有可用的特定语言模型 bash ./all_commands.sh --action train_udp --execute bash

  • 微调单个特定语言模型 bash bash install.sh --task train_udp --lang UD_English-EWT --MODEL_NAME mbert

预测

  • 对所有微调模型进行预测(适用于预训练的 mBERT 和 XLMR),如果特定语言变体没有训练数据,则从英语变体 "UD_English-EWT" 进行零样本预测 bash ./all_commands.sh --action predict_udp --execute bash

词性标注 (Parts of Speech Tagging)

训练

  • 在预训练的 mBERT 和 XLMR 上同时微调所有可用的特定语言模型 bash ./all_commands.sh --action train_pos --execute bash

预测

  • 对所有微调模型进行预测(适用于预训练的 mBERT 和 XLMR),如果特定语言变体没有训练数据,则从英语变体 "UD_English-EWT" 进行零样本预测 bash ./all_commands.sh --action predict_pos --execute bash

命名实体识别 (Named Entity Recognition)

训练

  • 在所有可用语言变体上同时进行内部变体微调(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action train_pos --execute bash

  • 仅对单个语言进行内部变体微调 bash bash install.sh --task train_ner --lang bokmaal --MODEL_NAME bert --dataset wikiann

预测

  • 使用所有内部变体微调模型进行预测(适用于预训练的 mBERT 和 XLMR),并使用英语变体 en 进行零样本预测 bash ./all_commands.sh --action predict_ner --execute bash

主题分类 (Topic Classification)

训练

  • 在不同语言集群中选择变体进行内部集群微调(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action train_topic_classification_lm --execute bash

预测

  • 在不同语言集群中对所有可用变体进行推理(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action predict_topic_classification_lm --execute bash

自然语言推理 (Natural Language Inference)

训练

  • 从英语进行零样本微调(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action train_nli --execute bash

预测

  • 在不同语言集群中对所有可用变体进行推理(适用于预训练的 mBERT 和 XLMR) bash ./all_commands.sh --action predict_nli --execute bash

情感分析 (Sentiment Analysis)

训练

  • 仅支持阿拉伯方言情感分析 bash ./all_commands.sh --action train_sa --execute bash

预测

  • 对每个特定变体模型进行评估 bash ./all_commands.sh --action predict_sa --execute bash

方言识别 (Dialect Identification)

训练

  • 微调阿拉伯语、英语、普通话、葡萄牙语、西班牙语和瑞士方言识别模型(基于 mBERT 和 XLMR) bash ./all_commands.sh --action train_did --execute bash

预测

  • 对所有微调模型进行预测 bash ./all_commands.sh --action predict_did_lm --execute bash

机器阅读理解 (Machine Reading Comprehension)

训练

  • 进行阅读理解训练 bash ./all_commands.sh --action train_reading_comprehension --execute bash

预测

  • 进行阅读理解预测 bash ./all_commands.sh --action predict_reading_comprehension --execute bash

抽取式问答 (Extractive Question Answering)

训练

  • 在所有语言上同时进行微调,以及单个语言及其变体 bash ./all_commands.sh --action train_sdqa --execute bash

预测

  • 进行抽取式问答预测 bash ./all_commands.sh --action predict_sdqa --execute bash
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作