FJC/corpusELE.csv
收藏Hugging Face2022-07-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FJC/corpusELE.csv
下载链接
链接失效反馈官方服务:
资源简介:
corpusELE是一个由西班牙语作为外语(ELE)的学生文本组成的数据集,这些文本来源于CAES(Corpus de Aprendices de Español como Lengua Extranjera)文件,下载自Instituto Cervantes网站。该数据集的主要目标是通过深度学习创建和训练一个分类模型,以根据这些数据确定给定西班牙语表达的水平,甚至说话者的母语。数据集包含46,787行和6列,每行代表一个句子或文本实例,列包括CAES短语编号、西班牙语水平、母语、关键词、完整短语和文件名。数据集的语言为西班牙语,文件类型为CSV,编码类型为UTF-8。
提供机构:
FJC
原始信息汇总
数据集卡片 for [corpusELE.csv]
数据集描述
corpusELE 是一个由学习西班牙语作为外语(ELE)的学生文本组成的数据集,所有文本来自从塞万提斯学院网站下载的CAES(Corpus de Aprendices de Español como Lengua Extranjera)文件。该数据集的主要目标是创建并通过深度学习进行训练,以便根据这些数据建立一个分类模型,能够根据西班牙语表达确定西班牙语的知识水平甚至说话者的母语。
- 文件名: corpusELE.csv
- 内容描述: 来自不同水平和不同母语的ELE学生的文本集合。
- 文件类型: CSV,逗号分隔
- 头部描述: 包含在数据集中(第一行)
- 编码类型: UTF-8
数据集摘要
- 列数: 6
- 行数: 46,787
支持的任务和排行榜
[更多信息需要]
语言
西班牙语
数据集结构
- numero (float): CAES 短语或文本编号。
- nivel (string): ELE 学生提供的文本的西班牙语知识水平。它将是欧洲语言学习、教学、评估共同参考框架中确立的水平之一。
- lenguaM (string): 注册文本所属的ELE学生的母语。
- pClave (string): 短语或文本中的关键词。可能是一个标点符号、标记或句子中被认为突出或特征的任何其他元素或字符。
- frase (string): ELE 学生提供的完整短语或文本。它由源文件中分段的两个部分连接而成,并且也包括单词或关键元素。
- archivo (string): 数据集中包含的附加信息,以便在数据预处理中使用。它指的是从中提取相应文本的文件名。虽然此信息对于工作目的不是必需的,但在调试数据捕获时是有用的。稍后它将成为我们可以忽略的信息。
数据实例
数据集的每个实例由一个句子或文本组成。
数据字段
[更多信息需要]
数据分割
[更多信息需要]
数据集创建
策划理由
[更多信息需要]
源数据
塞万提斯学院在其网站(www.institutocervantes.es)上向用户免费提供所谓的CAES或Corpus de Aprendices de Español,目前是其2.1版本,于2022年3月发布。
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据集的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
[更多信息需要]
贡献
感谢 @github-username 添加此数据集。



