SweLL
收藏arXiv2016-04-22 更新2024-06-21 收录
下载链接:
http://spraakbanken.gu.se/korp
下载链接
链接失效反馈官方服务:
资源简介:
SweLL是一个专注于瑞典学习者语言的语料库,由哥德堡大学等机构创建,旨在研究欧洲参考水平。该数据集包含339篇学习者论文,覆盖A1至C1的五个CEFR水平,未包含C2水平。数据集由三个子语料库组成,分别来自不同的教育机构,每篇论文都附有学习者的详细元数据。SweLL的创建过程包括论文收集、数字化、元数据标注和自动语言标注。该数据集主要用于第二语言学习和教学研究,以及CEFR水平的具体化研究。
SweLL is a corpus dedicated to Swedish learner language, developed by institutions including the University of Gothenburg, aimed at researching the Common European Framework of Reference for Languages (CEFR) proficiency levels. This dataset comprises 339 learner essays spanning five CEFR levels from A1 to C1, excluding the C2 level. It consists of three sub-corpora from different educational institutions, and each essay is accompanied by detailed metadata of the corresponding learner. The creation process of SweLL includes essay collection, digitization, metadata annotation and automatic linguistic annotation. This dataset is primarily utilized for second language learning and teaching research, as well as research on the specification of CEFR proficiency levels.
提供机构:
瑞典语言银行,哥德堡大学
创建时间:
2016-04-22
搜集汇总
数据集介绍

构建方式
SweLL数据集的构建基于三个子语料库——SpIn、SW1203和Tisus,分别来自不同的教育机构。这些子语料库涵盖了从A1到C1的五个CEFR水平,共收集了339篇学习者撰写的瑞典语作文。数据集的构建流程包括作文的收集、数字化、元数据标注以及自动语言学标注。每个子语料库的作文都附有详细的元数据,如学习者的年龄、性别、母语、在瑞典的居住时间等。此外,作文的CEFR水平由经过培训的评估者进行评定,并通过计算评估者间的一致性来确保标注质量。
特点
SweLL数据集的显著特点在于其多层次的CEFR标注,涵盖了从初学者到高级学习者的语言能力。每个子语料库的作文都附有丰富的元数据,便于进行学习者语言发展的纵向研究。此外,数据集中的作文主题多样,且部分作文来自同一学习者在不同时间点的写作,这为研究语言习得过程中的变化提供了宝贵资源。数据集还包含了学习者的母语信息,有助于进行跨语言的比较研究。
使用方法
SweLL数据集可用于多种语言学和教育研究,包括但不限于学习者语言的自动分析、语言习得过程的纵向研究以及CEFR水平的验证。研究者可以通过Korp平台浏览和分析数据集,利用其丰富的元数据和语言学标注进行深入的语言学研究。此外,数据集还可用于开发和优化第二语言教学工具和材料,帮助教师更好地理解和指导学习者的语言发展。
背景与挑战
背景概述
随着全球化进程的加速,越来越多的人为了寻求更好的工作或生活条件而移居欧洲,尤其是在瑞典。这种背景下,对外语(尤其是瑞典语)的教学与分析显得尤为重要。SweLL数据集由哥德堡大学、斯德哥尔摩大学和瑞典语言介绍中心的研究人员共同创建,旨在为瑞典语学习者提供一个基于欧洲语言共同参考框架(CEFR)的语料库。该数据集包含了来自不同教育机构的339篇学习者作文,涵盖了CEFR的五个等级(A1至C1),并附有详细的元数据,如学习者的年龄、性别、母语、居住时间等。SweLL数据集的构建不仅为语言学研究提供了宝贵的资源,还为自动语言分析方法的开发提供了基础,推动了第二语言习得领域的研究。
当前挑战
SweLL数据集的构建面临多重挑战。首先,如何准确标注学习者的语言水平是一个复杂的问题,尤其是在不同教育机构中使用的评估标准存在差异。其次,学习者作文中常见的语言错误和非标准表达形式对自动语言标注提出了更高的要求,现有的计算语言学方法难以直接应用于这些非标准文本。此外,数据集的扩展和维护也是一个持续的挑战,尤其是在获取新的学习者作文和确保数据质量方面。最后,如何将这些数据集广泛应用于教学和研究,同时保护学习者的隐私,也是一个需要解决的问题。
常用场景
经典使用场景
SweLL数据集的经典使用场景主要集中在瑞典语作为第二语言(L2)的学习者语言研究中。该数据集包含了不同CEFR水平的学习者撰写的作文,涵盖了从A1到C1的五个等级。研究者可以利用这些作文进行语言学分析,探索学习者在不同语言水平上的词汇、语法和写作能力的发展。此外,SweLL数据集还支持跨时间段的语言发展追踪,通过分析同一学习者在不同时间点撰写的作文,研究者可以观察到学习者在语言能力上的逐步提升。
衍生相关工作
SweLL数据集的发布催生了一系列相关的经典工作。首先,研究者利用该数据集开发了半自动化的语言分析方法,用于处理学习者语言中的语法和词汇错误。其次,SweLL数据集为构建平行语料库提供了基础,研究者可以通过对比学习者撰写的作文与其修正版本,进一步研究语言错误的类型及其纠正方法。此外,SweLL数据集还激发了关于语言学习者词汇和语法发展的跨语言比较研究,特别是在不同母语背景的学习者之间进行对比分析,揭示语言迁移的影响。
数据集最近研究
最新研究方向
SweLL数据集在第二语言习得研究领域中展现了显著的前沿性,其聚焦于瑞典语学习者的作文语料,并与欧洲语言共同参考框架(CEFR)的等级标准紧密关联。该数据集不仅为研究者提供了丰富的语言学习者产出数据,还通过多层次的元数据标注,如学习者的年龄、性别、母语背景等,为跨语言比较和语言习得过程的动态分析提供了坚实基础。此外,SweLL数据集的持续扩展和多维度标注方法,为自动语言分析和教学工具的开发提供了宝贵的资源,尤其是在处理学习者语言中的不规范现象和错误模式方面,具有重要的研究价值和应用前景。
相关研究论文
- 1SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies瑞典语言银行,哥德堡大学 · 2016年
以上内容由遇见数据集搜集并总结生成



