five

lmvasque/caes

收藏
Hugging Face2022-11-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lmvasque/caes
下载链接
链接失效反馈
官方服务:
资源简介:
CAES数据集,也称为“Corpus de Aprendices del Español”(CAES),是一个由西班牙语学习中心和大学生的西班牙语L2学习者创建的文本集合。这些学生具有不同的学习水平、背景(11种母语)和语言经验。数据集的每个文本的可读性级别遵循《欧洲语言共同参考框架(CEFR)》。原始版本的语料库还包含有关学习者及其创建每个文本的任务类型的信息。数据集分为两个版本:原始版本(caes.raw.csv)和处理后的版本(caes.jsonl)。
提供机构:
lmvasque
原始信息汇总

数据集概述

数据集名称

  • CAES (Corpus de Aprendices del Español)

数据集描述

  • 该数据集由西班牙语作为第二语言的学习者创建,来自不同的学习中心和大学。
  • 学习者具有不同的学习水平、11种不同的母语背景和不同程度的语言经验。
  • 文本的阅读难度遵循Common European Framework of Reference for Languages (CEFR)标准。

数据集版本

  • caes.raw.csv: 包含原始数据,包括学习者信息和作业类型/主题。
  • caes.jsonl: 仅包含文本样本、原始阅读水平和根据阅读难度标准化的分类(简单/复杂和基础/中级/高级)。

许可证

  • CC-BY-4.0

引用信息

  • 若使用数据集,请引用以下文献:
    • Vásquez-Rodríguez, Laura et al. (2022): "A Benchmark for Neural Readability Assessment of Texts in Spanish"
    • Parodi, Giovanni (2015): "Corpus de aprendices de español (CAES)"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作