five

BiLit-CEFR

收藏
Hugging Face2026-05-08 更新2026-05-09 收录
下载链接:
https://huggingface.co/datasets/merriamtao/BiLit-CEFR
下载链接
链接失效反馈
官方服务:
资源简介:
BiLit-CEFR是一个平衡的双语文学复杂度数据集,包含英语和中文的段落级文学片段,标注了CEFR风格的难度等级(A/B/C)。该数据集旨在支持CEFR风格的可读性分类和多语言文本难度建模。数据字段包括文本段落、难度等级、语言标识和原始来源。英语子集包含约1,026个文学片段,通过CommonLit可读性模型、句法复杂性、稀有词汇比例和风格修改进行标注;中文子集包含600个文学片段,通过启发式规则(词汇层次和句法结构难度)进行标注。数据集来源包括39本英语文学书籍和16本中文文学书籍的节选,例如《尤利西斯》、《红楼梦》等。适用任务包括文本分类、可读性估计和多语言NLP。局限性包括中文标签为启发式标注和文学偏见。

BiLit-CEFR is a balanced bilingual literary complexity dataset containing paragraph-level literary excerpts in English and Chinese, annotated with CEFR-style difficulty levels (A/B/C). The dataset aims to support CEFR-style readability classification and multilingual text difficulty modeling. Data fields include text passages, difficulty levels, language identifiers, and original sources. The English subset contains approximately 1,026 literary excerpts annotated using the CommonLit readability model, syntactic complexity, rare word ratio, and stylistic modifications; the Chinese subset contains 600 literary excerpts annotated using heuristic rules (lexical hierarchy and syntactic structure difficulty). The dataset sources include excerpts from 39 English literary books and 16 Chinese literary books, such as Ulysses and Dream of the Red Chamber. Applicable tasks include text classification, readability estimation, and multilingual NLP. Limitations include heuristic labeling for Chinese and literary bias.
创建时间:
2026-05-08
原始信息汇总

数据集概述:BiLit-CEFR 平衡双语文学复杂度数据集

基本信息

  • 数据集名称:BiLit-CEFR(Balanced Bilingual Literary Complexity Dataset)
  • 许可证:Apache-2.0
  • 任务类型:文本分类(text-classification)
  • 语言:英语(en)、中文(zh)
  • 标签:文学(literature)、可读性(readability)
  • 数据集大小:1,000 < 样本数 < 10,000
  • 难度标签:CEFR 风格 A/B/C 三级

数据字段

  • text:段落文本
  • difficulty:难度等级(A/B/C)
  • language:语言(en/zh)
  • open_source_books:原始来源书籍

标注方法

  • 英语:基于 CommonLit 可读性模型、句法复杂度、罕见词比例和文体修改综合评定
  • 中文:基于启发式规则(词汇层级和句法结构难度)

数据集统计

  • 英语子集

    • 总样本数:约 1,026 个文学段落
    • 难度分布(不平衡):
      • A:242 条
      • B:354 条
      • C:430 条
    • 训练集:en_train.jsonl(820 条)
    • 测试集:en_test.jsonl(206 条)
  • 中文子集

    • 总样本数:600 个文学段落
    • 难度分布(平衡):
      • A:200 条
      • B:200 条
      • C:200 条
    • 训练集:zh_train.jsonl(480 条)
    • 测试集:zh_test.jsonl(120 条)

来源文献

数据集包含来自 39 部英语文学作品和 16 部中文文学作品的节选段落,并非完整书籍。

  • 英语来源

    • 包含来自 ACOSharma 数据集(https://huggingface.co/datasets/ACOSharma/literature)的子集
    • 以及古腾堡计划作品(用于平衡标签分布)
    • 示例作品:尤利西斯、呼啸山庄、金银岛、世界大战、变形记、看得见风景的房间、麦加菲第一读本、鹅妈妈童谣、彼得兔的故事
  • 中文来源

    • 示例作品:红楼梦、西游记、水浒传、三国演义、官场现形记、呐喊、背影、史记、狂人日记、朝花夕拾、骆驼祥子、寄小读者

使用场景

  • 文本分类
  • 可读性评估
  • 多语言自然语言处理

限制与注意事项

  • 中文标签基于启发式规则,可能不够精确
  • 存在文学体裁偏差
搜集汇总
数据集介绍
main_image_url
构建方式
在语言学习与文学教育领域,可读性评估是精准匹配学习材料与读者能力的关键环节。BiLit-CEFR数据集专为此而生,其构建融合了跨语言策略。英文子集基于CommonLit可读性模型,综合句法复杂度、罕见词比例及文体修饰程度进行评分,最终映射至CEFR的A/B/C难度等级;中文子集则采用启发式规则,依据词汇层级与句法结构难度进行标注。数据来源为39部英文与16部中文文学著作的段落级摘录,通过精选片段而非完整作品实现了标签分布的均衡化,英文样本1026条,中文样本600条,并划分为训练集与测试集以支持模型评估。
特点
该数据集的核心特色在于其双语平衡设计与文学领域的专注性。英文子集呈现难度分布的不均衡性(A级242条、B级354条、C级430条),模拟真实语料中的自然偏斜;中文子集则严格保持三等级各200条的平衡结构,便于对比分析。数据以段落为基本单元,保留了文学文本的语境完整性与风格多样性,涵盖从《尤利西斯》到《红楼梦》等经典作品。多语种标签(英/中)和开源来源信息的附带,使其成为跨语言可读性分类与文本难度建模研究的宝贵资源,尤其适合探究不同语言复杂度特征的异同。
使用方法
BiLit-CEFR的数据结构简洁明晰,包含文本段落、难度标签、语言标识及原始来源字段,可直接用于文本分类与可读性估计任务。用户可通过加载JSONL文件(如en_train.jsonl或zh_test.jsonl)快速接入,其在HuggingFace平台以标准格式发布,支持常见的NLP框架如transformers进行微调。适用于构建多语言难度预测模型,或作为基准数据集评估不同语言的可读性算法。需注意中文标签基于启发式规则,可能存在局限,且数据偏向文学体裁,应用时宜考虑领域适配性。
背景与挑战
背景概述
BiLit-CEFR数据集由研究团队于近年创建,旨在构建一个平衡的双语文学复杂度标注资源,涵盖英文与中文两种语言。该数据集聚焦于段落级别的文学文本,依据欧洲语言共同参考框架(CEFR)的A/B/C三级难度标准进行标注,核心研究问题在于如何将可读性评估从单语扩展至多语领域,并应用于文学文本的难度建模。英文子集基于CommonLit可读性模型、句法复杂度及罕见词比例等指标进行自动化标注,中文子集则采用基于词汇层级与句法结构的启发式规则。数据集共包含约1626个段落样本,整合了39部英文文学著作与16部中文经典作品,如《红楼梦》《骆驼祥子》及《尤利西斯》等,为跨语言文学文本的难度分类提供了宝贵的基准资源,对自然语言处理中的可读性估计与多语言文本分析具有推动作用。
当前挑战
该数据集面临多重挑战。领域问题方面,文学文本的可读性标注长期依赖于语言特定的指标,难以统一适用于中英文双语,尤其是中文文学复杂度缺乏标准化评估体系,使得跨语言难度建模成为难点。构建过程中,英文数据集存在类别分布不均衡(A类242样本,C类430样本),可能影响分类模型对低难度文本的识别能力;中文标签完全依赖启发式规则,缺乏人工校验,标注的客观性与一致性存疑。此外,数据集仅包含段落摘录,样本量有限(英文1026段、中文600段),可能限制模型泛化能力。文学偏见则表现为偏好经典文言或早期白话作品,缺乏对现代或通俗文学的代表性,这些因素共同制约了数据集在实际应用中的鲁棒性与广泛性。
常用场景
经典使用场景
BiLit-CEFR数据集专为文学文本的可读性分级与多语言文本分类任务而构建,其核心价值在于将欧洲共同语言参考标准(CEFR)的难度等级框架引入中英双语文学语料。该数据集以段落为基本单元,为每段文本标注A、B、C三档难度级别,适用于训练和评估跨语言文本难度自动评估模型。研究者可借助该数据集开展双语文学复杂度对比分析、基于深度学习的文本可读性预测,以及面向第二语言习得的阅读材料自动分级等经典研究,为计算语言学与教育技术交叉领域提供了标准化的双语基准资源。
实际应用
在实际应用层面,BiLit-CEFR数据集可服务于自适应阅读学习系统的核心模块。基于该数据训练的分类器能够自动评估英语和中文文学文本的难度等级,辅助教育平台为不同语言水平的读者推荐恰当的阅读材料。它还可集成到数字图书馆或课外阅读应用中,实现从启蒙读物到经典著作的个性化分级导航。在语言测试领域,该数据集可为CEFR等级的自动命题与难度校准提供参考语料,降低人工标注成本。此外,其双语特性使其在机器翻译质量评估中的文本难度控制场景也具备潜在应用价值。
衍生相关工作
BiLit-CEFR数据集的发布推动了若干衍生研究方向。一方面,研究者基于其双语标注框架开发了跨语言文本难度映射模型,探索将英语可读性指标迁移至中文的可行性。另一方面,该数据集激发了针对文学文本的语言特征工程研究,催生了诸如文学句法树复杂度量化、修辞密度与难度关联分析等细分课题。在模型层面,已有工作将其与多语言预训练模型(如mBERT、XLM-R)结合,构建针对段落级可读性预测的微调范式,并衍生出面向低资源语言的半监督标注策略。这些衍生工作共同拓展了计算可读性研究的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作