five

somosnlp-hackathon-2022/readability-es-hackathon-pln-public

收藏
Hugging Face2023-04-13 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/readability-es-hackathon-pln-public
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于西班牙语可读性评估的短篇文章汇编。这些文章主要来自学习西班牙语作为第二语言的网站,包括Coh-Metrix-Esp语料库、kwiziq和hablacultura.com等来源。数据集包含1019个文本条目,长度在80到8714个字符之间,大多数(97%)文本长度低于4000个字符。数据格式为json lines,包含类别、级别、文本等字段。

该数据集是用于西班牙语可读性评估的短篇文章汇编。这些文章主要来自学习西班牙语作为第二语言的网站,包括Coh-Metrix-Esp语料库、kwiziq和hablacultura.com等来源。数据集包含1019个文本条目,长度在80到8714个字符之间,大多数(97%)文本长度低于4000个字符。数据格式为json lines,包含类别、级别、文本等字段。
提供机构:
somosnlp-hackathon-2022
原始信息汇总

数据集概述

数据集描述

该数据集名为“readability-es-sentences”,是一个用于可读性评估的西班牙语短文汇编。

数据集来源

  • Coh-Metrix-Esp corpus (Quispesaravia, et al., 2016): 包含100个平行文本,具有简单和复杂两种西班牙语版本,涵盖儿童和成人故事。
  • kwiziq: 语言学习助手。
  • hablacultura.com: 面向学生和教师的西班牙语资源网站。

数据集结构

  • 文本数量: 1019篇。
  • 文本长度: 80至8714个字符,其中97%的文本长度低于4000个字符。

数据字段

  • Category: 根据CEFR标准划分的文本等级。
  • Level: 标准化可读性等级:简单或复杂。
  • Level-3: 标准化可读性等级:基础、中级或高级。
  • Text: 格式化为句子的原始文本。

语言

西班牙语

许可证

该数据集遵循CC-BY-4.0许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作