five

agentlans/readability

收藏
Hugging Face2024-06-20 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/agentlans/readability
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约200,000个段落和可读性指标,来源包括HuggingFace的Fineweb-Edu、Ronen Eldan的TinyStories、Wikipedia-2023-11-embed-multilingual-v3(仅英文)和ArXiv Abstracts-2021。每个段落的字符数在50到2000之间。数据格式为JSON,每行代表一个段落,包含文本及其对应的可读性等级。可读性等级是基于多个可读性指标的中位数计算得出的。数据集仅包含可读性等级四分位距(IQR)小于1的段落。数据集适用于文本简化、可读性评估和语言理解等任务。

This dataset comprises approximately 200,000 paragraphs and readability metrics from each of four sources: HuggingFaces Fineweb-Edu, Ronen Eldans TinyStories, Wikipedia-2023-11-embed-multilingual-v3 (English only), and ArXiv Abstracts-2021. Each paragraph falls within the character range of 50 to 2000. The format is JSON, with each row representing a paragraph and containing both the text and its corresponding readability grade. The grade is the median of several readability metrics. Only paragraphs with an Interquartile Range (IQR) of readability grades less than 1 were included in the dataset. This dataset is suitable for tasks such as text simplification, readability assessment, and language understanding.
提供机构:
agentlans
原始信息汇总

数据集概述

基本信息

  • 许可证: CC0-1.0
  • 任务类别:
    • 文本分类
    • 特征提取
  • 语言: 英语
  • 数据规模: 100K<n<1M

描述

该数据集包含约200,000个段落及其可读性指标,来自以下四个来源:

  • HuggingFace的Fineweb-Edu
  • Ronen Eldan的TinyStories
  • Wikipedia-2023-11-embed-multilingual-v3(仅限英语)
  • ArXiv Abstracts-2021

每个段落的字符范围为50到2000。

格式

数据格式为JSON,每行代表一个段落,包含文本及其相应的可读性等级。

特征

  • 文本: 来自上述来源的段落文本
  • 等级: 以下可读性指标的中位数:
    • Flesch-Kincaid Grade Level
    • Gunning Fog Index
    • SMOG Readability Index
    • Automated Readability Index
    • Coleman-Liau Index
    • Linsear Write Formula

等级估计了美国年级水平,读者需要达到该水平才能理解文本。等级越高,文本越难读。

数据选择标准

仅包含可读性等级四分位距(IQR)小于1的段落。

示例条目

json { "text": "We studied in detail the optical spectrum of the post-AGB star HD56126 (IRAS07134+1005). [text omitted...]", "grade": 13.51 }

适用任务

该数据集适用于文本简化、可读性评估和语言理解等任务,允许研究人员分析和开发适用于不同文本和难度的模型。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作