five

FJC/corpusELE.csv

收藏
Hugging Face2022-07-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FJC/corpusELE.csv
下载链接
链接失效反馈
官方服务:
资源简介:
corpusELE是一个由西班牙语作为外语(ELE)的学生文本组成的数据集,这些文本来源于CAES(Corpus de Aprendices de Español como Lengua Extranjera)文件,下载自Instituto Cervantes网站。该数据集的主要目标是通过深度学习创建和训练一个分类模型,以根据这些数据确定给定西班牙语表达的水平,甚至说话者的母语。数据集包含46,787行和6列,每行代表一个句子或文本实例,列包括CAES短语编号、西班牙语水平、母语、关键词、完整短语和文件名。数据集的语言为西班牙语,文件类型为CSV,编码类型为UTF-8。
提供机构:
FJC
原始信息汇总

数据集卡片 for [corpusELE.csv]

数据集描述

corpusELE 是一个由学习西班牙语作为外语(ELE)的学生文本组成的数据集,所有文本来自从塞万提斯学院网站下载的CAES(Corpus de Aprendices de Español como Lengua Extranjera)文件。该数据集的主要目标是创建并通过深度学习进行训练,以便根据这些数据建立一个分类模型,能够根据西班牙语表达确定西班牙语的知识水平甚至说话者的母语。

  • 文件名: corpusELE.csv
  • 内容描述: 来自不同水平和不同母语的ELE学生的文本集合。
  • 文件类型: CSV,逗号分隔
  • 头部描述: 包含在数据集中(第一行)
  • 编码类型: UTF-8

数据集摘要

  • 列数: 6
  • 行数: 46,787

支持的任务和排行榜

[更多信息需要]

语言

西班牙语

数据集结构

  1. numero (float): CAES 短语或文本编号。
  2. nivel (string): ELE 学生提供的文本的西班牙语知识水平。它将是欧洲语言学习、教学、评估共同参考框架中确立的水平之一。
  3. lenguaM (string): 注册文本所属的ELE学生的母语。
  4. pClave (string): 短语或文本中的关键词。可能是一个标点符号、标记或句子中被认为突出或特征的任何其他元素或字符。
  5. frase (string): ELE 学生提供的完整短语或文本。它由源文件中分段的两个部分连接而成,并且也包括单词或关键元素。
  6. archivo (string): 数据集中包含的附加信息,以便在数据预处理中使用。它指的是从中提取相应文本的文件名。虽然此信息对于工作目的不是必需的,但在调试数据捕获时是有用的。稍后它将成为我们可以忽略的信息。

数据实例

数据集的每个实例由一个句子或文本组成。

数据字段

[更多信息需要]

数据分割

[更多信息需要]

数据集创建

策划理由

[更多信息需要]

源数据

塞万提斯学院在其网站(www.institutocervantes.es)上向用户免费提供所谓的CAES或Corpus de Aprendices de Español,目前是其2.1版本,于2022年3月发布。

源语言生产者是谁?

[更多信息需要]

注释

注释过程

[更多信息需要]

注释者是谁?

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据集的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

[更多信息需要]

贡献

感谢 @github-username 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作