FJC/corpusELE.csv

Hugging Face2022-07-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FJC/corpusELE.csv

下载链接

链接失效反馈

官方服务：

资源简介：

corpusELE是一个由西班牙语作为外语（ELE）的学生文本组成的数据集，这些文本来源于CAES（Corpus de Aprendices de Español como Lengua Extranjera）文件，下载自Instituto Cervantes网站。该数据集的主要目标是通过深度学习创建和训练一个分类模型，以根据这些数据确定给定西班牙语表达的水平，甚至说话者的母语。数据集包含46,787行和6列，每行代表一个句子或文本实例，列包括CAES短语编号、西班牙语水平、母语、关键词、完整短语和文件名。数据集的语言为西班牙语，文件类型为CSV，编码类型为UTF-8。

提供机构：

FJC

原始信息汇总

数据集卡片 for [corpusELE.csv]

数据集描述

corpusELE 是一个由学习西班牙语作为外语（ELE）的学生文本组成的数据集，所有文本来自从塞万提斯学院网站下载的CAES（Corpus de Aprendices de Español como Lengua Extranjera）文件。该数据集的主要目标是创建并通过深度学习进行训练，以便根据这些数据建立一个分类模型，能够根据西班牙语表达确定西班牙语的知识水平甚至说话者的母语。

文件名: corpusELE.csv
内容描述: 来自不同水平和不同母语的ELE学生的文本集合。
文件类型: CSV，逗号分隔
头部描述: 包含在数据集中（第一行）
编码类型: UTF-8

数据集摘要

列数: 6
行数: 46,787

支持的任务和排行榜

[更多信息需要]

语言

西班牙语

数据集结构

numero (float): CAES 短语或文本编号。
nivel (string): ELE 学生提供的文本的西班牙语知识水平。它将是欧洲语言学习、教学、评估共同参考框架中确立的水平之一。
lenguaM (string): 注册文本所属的ELE学生的母语。
pClave (string): 短语或文本中的关键词。可能是一个标点符号、标记或句子中被认为突出或特征的任何其他元素或字符。
frase (string): ELE 学生提供的完整短语或文本。它由源文件中分段的两个部分连接而成，并且也包括单词或关键元素。
archivo (string): 数据集中包含的附加信息，以便在数据预处理中使用。它指的是从中提取相应文本的文件名。虽然此信息对于工作目的不是必需的，但在调试数据捕获时是有用的。稍后它将成为我们可以忽略的信息。

数据实例

数据集的每个实例由一个句子或文本组成。

数据字段

[更多信息需要]

数据分割

[更多信息需要]

数据集创建

策划理由

[更多信息需要]

源数据

塞万提斯学院在其网站（www.institutocervantes.es）上向用户免费提供所谓的CAES或Corpus de Aprendices de Español，目前是其2.1版本，于2022年3月发布。

源语言生产者是谁？

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据集的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

[更多信息需要]

贡献

感谢 @github-username 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集