readability_scroll

github2021-12-27 更新2024-05-31 收录

下载链接：

https://github.com/siangooding/readability_scroll

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含598名参与者阅读高级和基础文本时的滚动交互数据，数据集详细记录了参与者的阅读行为，如滚动事件的时间、距离和段落可见性等。

This dataset comprises scrolling interaction data from 598 participants while reading advanced and basic texts. It meticulously documents participants' reading behaviors, including the timing of scrolling events, distances scrolled, and paragraph visibility.

创建时间：

2021-05-06

原始信息汇总

数据集概述：Predicting Text Readability from Scrolling Interactions

数据集内容

参与者数量：598名参与者。
文本来源：使用OneStopEnglish corpus中的高级和基础文本。
阅读理解问题来源：OneStopQA。

参与者人口统计

语言熟练度	百分比	教育水平	百分比	年龄范围	百分比	英语阅读时间	百分比
母语	46.69	研究生	53.67	18 - 24	18.23	0 - 4	24.20
近母语	14.75	本科生	39.51	25-34	57.19	5 - 9	22.87
高级	27.78	高中	3.59	35-44	13.38	10 - 14	11.72
中级	9.83	职业学校	2.65	45-54	8.02	15 - 19	7.18
初级	0.95	无正式	0.57	55+	3.17	20 +	33.84

数据描述

列名（基础/高级）	示例	描述
elementary_text	WNL Rwanda-ele.txt	文本标题，来自OneStopEnglish corpus。
elementary_read	read	指示文章是否可能被阅读的值，基于滚动次数。
elementary_reading_time_ms	92909	阅读文章的总时间，单位为毫秒。
elementary_reading_event_ms	[15, 5408, 6122 …]	滚动事件的经过时间，示例中第一次滚动发生在15ms后。
elementary_reading_scroll_event	[0, 200, 500 … ]	从文章开始到滚动事件的Y轴距离。
elementary_reading_paragraph_visibility	[0_100,1_47, 0_53…]	阅读时段落可见性的百分比。
elementary_reading_span	[A1_97, A1_100…]	干扰项/答案跨度的可见性百分比。

引用信息

@inproceedings{gooding-etal-2021-predicting, title = "Predicting Text Readability from Scrolling Interactions", author = "Gooding, Sian and Berzak, Yevgeni and Mak, Tony and Sharifi, Matt", booktitle = "Proceedings of the 25th Conference on Computational Natural Language Learning", month = nov, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.conll-1.30", pages = "380--390"}

搜集汇总

数据集介绍

构建方式

该数据集通过收集598名参与者在阅读OneStopEnglish语料库中的高级和初级文本时的滚动交互数据构建而成。参与者需回答来自OneStopQA的多项选择阅读理解问题，研究细节和初步实验可在相关论文中找到。数据集的构建过程包括记录参与者的滚动行为、阅读时间、段落可见性以及答案可见性等关键指标，旨在通过滚动行为预测文本的可读性。

使用方法

该数据集的使用方法包括通过分析滚动行为数据来预测文本的可读性。研究者可以利用数据集中的滚动时间、滚动距离、段落可见性等指标，结合参与者的背景信息，构建模型来评估文本的阅读难度。此外，数据集还可用于研究不同语言熟练度的读者在阅读过程中的行为差异，以及阅读理解问题的可见性对答题准确性的影响。数据集的结构清晰，便于研究者进行数据提取和分析。

背景与挑战

背景概述

readability_scroll数据集由Sian Gooding等研究人员于2021年创建，旨在通过分析用户在阅读文本时的滚动行为来预测文本的可读性。该数据集基于OneStopEnglish语料库，涵盖了598名参与者在阅读高级和初级文本时的滚动交互数据，并结合了阅读理解问题的回答情况。研究团队通过分析滚动时间、滚动距离、段落可见性等指标，探索了文本可读性与用户交互行为之间的关系。该数据集为自然语言处理和教育技术领域提供了新的研究视角，尤其在个性化学习和文本难度评估方面具有重要应用价值。

当前挑战

readability_scroll数据集面临的主要挑战包括两个方面。首先，在领域问题方面，如何从复杂的滚动行为中提取有效的特征以准确预测文本可读性仍是一个难题。滚动行为受多种因素影响，如阅读速度、注意力分配和用户习惯，这些因素增加了模型训练的复杂性。其次，在数据构建过程中，研究团队需要处理大量高维时间序列数据，并确保数据的准确性和一致性。此外，参与者的语言水平、教育背景和阅读习惯的多样性也对数据的标准化和泛化能力提出了更高要求。这些挑战需要在后续研究中通过更精细的特征工程和模型优化来解决。

常用场景

经典使用场景

在自然语言处理领域，`readability_scroll`数据集被广泛应用于研究文本可读性与用户滚动行为之间的关系。通过分析用户在阅读不同难度文本时的滚动行为，研究者能够深入理解用户如何与文本内容进行交互，从而为文本可读性评估提供新的视角。该数据集尤其适用于开发基于用户行为的文本可读性预测模型，为个性化阅读体验的优化提供数据支持。

解决学术问题

`readability_scroll`数据集解决了文本可读性评估中传统方法依赖静态文本特征的局限性问题。通过引入用户滚动行为数据，研究者能够更动态地评估文本的可读性，尤其是在多语言和多文化背景下。这一数据集为文本可读性研究提供了新的数据维度，推动了基于用户交互行为的可读性评估方法的发展，具有重要的学术意义。

实际应用

在实际应用中，`readability_scroll`数据集为教育技术、在线学习平台以及数字出版领域提供了重要的数据支持。例如，在线学习平台可以利用该数据集优化课程材料的呈现方式，确保不同语言水平的用户都能高效理解内容。此外，数字出版商可以通过分析用户滚动行为，调整文本布局和难度，提升读者的阅读体验。

数据集最近研究