codesue/kelly
收藏数据集概述
数据集描述
数据集摘要
瑞典Kelly列表是一个基于频率的词汇列表,包含现代瑞典语的通用语言。该列表是从一个包含114百万词的网络获取语料库(SweWaC)中生成的,时间跨度为2010年代。它适应了语言学习者的需求,包含8,425个最常见的词条,覆盖了SweWaC的80%。
语言
瑞典语 (sv-SE)
数据集结构
数据实例
以下是一个数据样本:
python { id: 190, raw_frequency: 117835.0, relative_frequency: 1033.61, cefr_level: A1, source: SweWaC, marker: en, lemma: dag, pos: noun-en, examples: e.g. god dag }
这可以理解为:
常用名词 "dag"("天")在列表中的排名为190。它在SweWaC中使用了117,835次,意味着每百万词中出现1033.61次。这个词是瑞典语学习者最重要的词汇之一,应在A1 CEFR级别学习。这个词的一个示例用法是短语 "god dag"("早上好")。
数据字段
id: 数据条目的行号,从1开始。通常对应于词的排名。raw_frequency: 词的原始频率。relative_frequency: 词的相对频率,以每百万词的出现次数衡量。cefr_level: 词的CEFR级别(A1, A2, B1, B2, C1, C2)。source: 词的来源,来自SweWaC、翻译列表(T2)或手动添加(manual)。marker: 词的语法标记,如果有的话,如冠词或不定式标记。lemma: 词的词条,有时提供其拼写或文体变体。pos: 词的词性。examples: 使用示例和评论。仅对部分词条可用。
手动添加的条目被前置到列表中,使它们的排名高于它们可能应有的排名。例如,手动添加的 "Göteborg"("哥德堡")的排名为20,而第一个非手动添加的 "och"("和")的排名为87。然而,连词和常用停用词比城市名称更可能出现。
数据分割
有一个单一的分割,train。
数据集创建
请参考文章 Corpus-based approaches for the creation of a frequency based vocabulary list in the EU project KELLY – issues on reliability, validity and coverage 以了解原始数据集的创建方式以及使用数据时的考虑因素。
对原始数据集的以下更改已进行:
- 更改了标题名称。
- 将大型网络获取语料库名称规范化为 "SweWac" 在
source字段中。 - 将手动添加条目的相对频率设置为null而不是1000000。
附加信息
许可信息
引用信息
如果您在工作中使用此数据集,请引用作者:
bibtex @article{Kilgarriff2013, doi = {10.1007/s10579-013-9251-2}, url = {https://doi.org/10.1007/s10579-013-9251-2}, year = {2013}, month = sep, publisher = {Springer Science and Business Media {LLC}}, volume = {48}, number = {1}, pages = {121--163}, author = {Adam Kilgarriff and Frieda Charalabopoulou and Maria Gavrilidou and Janne Bondi Johannessen and Saussan Khalil and Sofie Johansson Kokkinakis and Robert Lew and Serge Sharoff and Ravikiran Vadlapudi and Elena Volodina}, title = {Corpus-based vocabulary lists for language learners for nine languages}, journal = {Language Resources and Evaluation} }



