five

orai-nlp/bl2mp

收藏
Hugging Face2025-05-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/orai-nlp/bl2mp
下载链接
链接失效反馈
官方服务:
资源简介:
BL2MP是一个用于评估巴斯克语语言模型语法知识的测试集,包含来自bai&by语言学院学生的作文中的1800个句子。这些句子按照“最小对”标准选出,均匀分布在不同水平(初学者、中级和高级)和三种错误类型(词尾变化、动词、结构和顺序)上,以提供真实的语言学习错误案例。

The BL2MP test set is designed to assess the grammatical knowledge of language Models in the Basque language, containing 1,800 sentences from essays written by students at the bai&by language academy. These sentences are selected according to the minimal pairs criterion and are evenly distributed across three proficiency levels (Beginner, Intermediate, and Advanced) and three types of errors (Declension, Verb, Structure and Order).
提供机构:
orai-nlp
原始信息汇总

BL2MP数据集概述

数据集名称

  • BL2MP (Basque L2 student-based Minimal Pairs)

数据集描述

  • 目的: 评估Basque语言模型的语法知识。
  • 来源: 数据来源于bai&by语言学院的学生作文。
  • 特点: 包含学生作文中的真实语法错误,反映学习者的实际错误。

数据集构成

  • 样本数量: 随机选取1,800句。
  • 分布:
    • 水平: 分为三个等级(A: Beginner, B: Intermediate, C: Advanced)。
    • 错误类型: 三种(E1: Declension, E2: Verb, E3: Structure and Order)。
    • 每个分类的句子数量: 每个等级和错误类型各200句,总计1,800句。

数据集详细分类

类型 水平 句子数量
E1: Declension A 200
B 200
C 200
E2: Verb A 200
B 200
C 200
E3: Structure A 200
B 200
C 200
总计 1,800

版权与许可

  • 许可: 数据集根据Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)授权。

作者与联系信息

  • 作者: Gorka Urbizu, Muitze Zulaika, Xabier Saralegi, Ander Corral。
  • 联系: Gorka Urbizu, Muitze Zulaika: {g.urbizu,m.zulaika}@orai.eus。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作