Kelly

github2022-12-19 更新2024-05-31 收录

下载链接：

https://github.com/codesue/kelly

下载链接

链接失效反馈

官方服务：

资源简介：

瑞典Kelly列表是一个基于现代瑞典通用语言的自由可用频率词汇列表。该列表从2010年代的1.14亿字网络获取语料库（SweWaC）生成，包含8,425个最频繁的词汇，覆盖了SweWaC的80%。

The Swedish Kelly List is a freely available frequency word list based on modern Swedish general language. This list is generated from a corpus (SweWaC) of 114 million words collected from the web in the 2010s, encompassing 8,425 of the most frequent words, which cover 80% of the SweWaC corpus.

创建时间：

2022-09-16

原始信息汇总

数据集概述

数据集名称

名称: Kelly
关键词: 语言学习, 年轻人, 成年人

数据集描述

数据集摘要

描述: 瑞典Kelly列表是一个基于频率的词汇列表，包含现代瑞典的通用语言。该列表源自2010年代的SweWaC语料库，包含114百万词。它包含8,425个最频繁的词汇，覆盖了SweWaC的80%。
语言: 瑞典语 (sv-SE)

数据集结构

数据实例

示例: python { id: 190, raw_frequency: 117835.0, relative_frequency: 1033.61, cefr_level: A1, source: SweWaC, marker: en, lemma: dag, pos: noun-en, examples: e.g. god dag }

数据字段

id: 数据条目的行号，从1开始。通常对应于单词的排名。
raw_frequency: 单词的原始频率。
relative_frequency: 单词的相对频率，以每百万词的出现次数衡量。
cefr_level: 单词的CEFR级别（A1, A2, B1, B2, C1, C2）。
source: 单词来源，如SweWaC、翻译列表(T2)或手动添加。
marker: 单词的语法标记，如果有的话。
lemma: 单词的词形，有时提供拼写或文体变体。
pos: 单词的词性。
examples: 使用示例和注释。仅对某些单词可用。

数据分割

分割: train

数据集创建

来源: 基于SweWaC语料库创建，考虑了语言学习者的需求。
修改:
- 更改了标题名称。
- 将大型网络获取的语料库名称标准化为"SweWac"。
- 将手动条目的相对频率设置为null而不是1000000。

附加信息

许可信息

许可: CC BY 4.0

引用信息

引用: bibtex @article{Kilgarriff2013, doi = {10.1007/s10579-013-9251-2}, url = {https://doi.org/10.1007/s10579-013-9251-2}, year = {2013}, month = sep, publisher = {Springer Science and Business Media {LLC}}, volume = {48}, number = {1}, pages = {121--163}, author = {Adam Kilgarriff and Frieda Charalabopoulou and Maria Gavrilidou and Janne Bondi Johannessen and Saussan Khalil and Sofie Johansson Kokkinakis and Robert Lew and Serge Sharoff and Ravikiran Vadlapudi and Elena Volodina}, title = {Corpus-based vocabulary lists for language learners for nine languages}, journal = {Language Resources and Evaluation} }

贡献者

创建者: @spraakbanken
添加者: @codesue

搜集汇总

数据集介绍

构建方式

Kelly数据集的构建基于瑞典语现代通用语言的频率词汇表，其数据来源于一个包含1.14亿词的网络语料库SweWaC。该语料库采集自2010年代的网页内容，经过专家筛选和处理，最终生成了包含8,425个最常见词条的词汇表。这些词条覆盖了SweWaC语料库中80%的词汇，特别为语言学习者设计，并标注了CEFR等级，以便学习者根据语言水平选择合适的词汇。

特点

Kelly数据集的特点在于其词汇表的频率驱动性和实用性。每个词条不仅包含词频信息，还标注了CEFR等级，帮助学习者识别词汇的难度级别。此外，数据集还提供了词性、词形变化、例句等详细信息，使得词汇学习更加系统化。数据集的词汇来源于SweWaC语料库，确保了词汇的现代性和实用性，同时通过手动添加部分高频词汇，进一步优化了词汇表的覆盖范围。

使用方法

Kelly数据集的使用方法主要围绕语言学习和词汇教学展开。用户可以通过词频、CEFR等级或词性等字段筛选词汇，制定个性化的学习计划。数据集中的例句和注释为词汇的实际应用提供了参考，帮助学习者理解词汇的语境和用法。此外，数据集还可用于开发语言学习工具或进行词汇研究，例如分析词汇频率与语言水平之间的关系，或构建自动化的词汇评估系统。

背景与挑战

背景概述

Kelly数据集是一个基于频率的瑞典语词汇列表，专为语言学习者设计，涵盖了现代瑞典语中的常用词汇。该数据集由瑞典语语料库SweWaC生成，包含114百万词的网络文本，涵盖了2010年代的语料。数据集的核心研究问题在于如何通过频率分析为语言学习者提供一个高效的学习工具，帮助其掌握瑞典语中最常用的8425个词条，覆盖了SweWaC语料库中80%的词汇。该数据集由多位语言学家和研究人员共同创建，主要贡献者包括Adam Kilgarriff等，相关研究成果发表于2013年的《Language Resources and Evaluation》期刊。Kelly数据集在语言教学和自然语言处理领域具有重要影响力，尤其是在词汇学习和语言资源评估方面。

当前挑战

Kelly数据集在构建过程中面临的主要挑战包括如何从大规模语料库中提取高频词汇，并确保这些词汇能够有效覆盖日常语言使用。由于语料库的多样性和复杂性，词汇的筛选和标注需要高度精确，以确保其适用于不同水平的学习者。此外，数据集的构建还涉及如何将词汇与CEFR（欧洲共同语言参考框架）等级对应，这要求研究人员对词汇的难度和使用频率进行细致的分析。另一个挑战在于如何平衡自动生成的词汇与手动添加的词汇之间的关系，以确保数据集的完整性和实用性。尽管数据集在词汇覆盖和标注方面取得了显著成果，但其在跨语言应用和多语言学习者中的普适性仍需进一步验证和改进。

常用场景

经典使用场景

Kelly数据集在瑞典语教学和学习中具有重要应用，特别是在词汇频率和语言水平分类方面。该数据集基于瑞典语现代通用语言，通过大规模网络语料库（SweWaC）生成，包含8425个最常用的词条，覆盖了80%的语料库内容。这些词条按照CEFR（欧洲共同语言参考框架）水平进行分类，为语言学习者提供了明确的学习路径。

衍生相关工作

Kelly数据集衍生了许多相关研究，特别是在多语言词汇列表的构建和语言学习资源的开发方面。例如，基于该数据集的研究成果，其他语言的类似词汇列表得以开发，进一步推动了多语言教学资源的标准化。此外，该数据集还被用于开发自动化的语言水平评估工具，为语言学习者提供即时反馈。

数据集最近研究