somosnlp-hackathon-2022/readability-es-hackathon-pln-public
收藏Hugging Face2023-04-13 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/readability-es-hackathon-pln-public
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于西班牙语可读性评估的短篇文章汇编。这些文章主要来自学习西班牙语作为第二语言的网站,包括Coh-Metrix-Esp语料库、kwiziq和hablacultura.com等来源。数据集包含1019个文本条目,长度在80到8714个字符之间,大多数(97%)文本长度低于4000个字符。数据格式为json lines,包含类别、级别、文本等字段。
该数据集是用于西班牙语可读性评估的短篇文章汇编。这些文章主要来自学习西班牙语作为第二语言的网站,包括Coh-Metrix-Esp语料库、kwiziq和hablacultura.com等来源。数据集包含1019个文本条目,长度在80到8714个字符之间,大多数(97%)文本长度低于4000个字符。数据格式为json lines,包含类别、级别、文本等字段。
提供机构:
somosnlp-hackathon-2022
原始信息汇总
数据集概述
数据集描述
该数据集名为“readability-es-sentences”,是一个用于可读性评估的西班牙语短文汇编。
数据集来源
- Coh-Metrix-Esp corpus (Quispesaravia, et al., 2016): 包含100个平行文本,具有简单和复杂两种西班牙语版本,涵盖儿童和成人故事。
- kwiziq: 语言学习助手。
- hablacultura.com: 面向学生和教师的西班牙语资源网站。
数据集结构
- 文本数量: 1019篇。
- 文本长度: 80至8714个字符,其中97%的文本长度低于4000个字符。
数据字段
- Category: 根据CEFR标准划分的文本等级。
- Level: 标准化可读性等级:简单或复杂。
- Level-3: 标准化可读性等级:基础、中级或高级。
- Text: 格式化为句子的原始文本。
语言
西班牙语
许可证
该数据集遵循CC-BY-4.0许可证。



