Anki Revlogs 10K

github2024-11-05 更新2024-11-06 收录

下载链接：

https://github.com/open-spaced-repetition/anki-revlogs-dataset-builder

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于处理Anki间隔重复复习日志的工具，将数据从Protocol Buffer格式转换为Parquet文件，并提供上传和下载数据集到Hugging Face Hub的功能。

A tool for processing Anki spaced repetition review logs, which converts data from Protocol Buffer format to Parquet files, and provides functionalities for uploading and downloading datasets to and from the Hugging Face Hub.

创建时间：

2024-10-31

原始信息汇总

Anki Revlogs Dataset Builder

概述

该项目提供以下工具：

将Anki复习日志从Protocol Buffer格式转换为Parquet文件
上传/下载数据集到/从Hugging Face Hub
展示如何使用数据集的示例

转换后的数据集可在Hugging Face Hub上获取：Anki Revlogs 10K

安装

所需的依赖项：

pandas pyarrow protobuf huggingface_hub tqdm

使用

将复习日志转换为Parquet

使用build_parquet.py脚本将Protocol Buffer文件转换为Parquet格式：

python python build_parquet.py

从Hugging Face下载数据集

下载处理后的数据集：

python python download_from_hf.py

处理单个用户数据

分析特定用户的数据：

python python process_dataset.py

数据处理流程

从.revlog文件（Protocol Buffer格式）读取原始复习日志
使用pandas DataFrames处理和转换数据
结果按user_id分区保存为Parquet文件
上传到Hugging Face Hub以共享

文件结构

. ├── README.md ├── build_parquet.py # 主要转换脚本 ├── stats.proto # Protocol Buffer定义 ├── download_from_hf.py # 数据集下载工具 ├── upload_to_hf.py # 数据集上传工具 └── process_dataset.py # 单个数据处理

许可证

GNU AGPL，版本3或更高

搜集汇总

数据集介绍

构建方式

在构建Anki Revlogs 10K数据集的过程中，原始的复习日志数据首先从Protocol Buffer格式文件中读取。随后，这些数据通过pandas DataFrame进行处理和转换，以确保数据结构的清晰和高效。最终，处理后的数据以Parquet文件格式保存，并根据用户ID进行分区，以便于后续的分析和共享。整个构建流程包括数据读取、处理、转换和存储，确保了数据的高效性和可访问性。

特点

Anki Revlogs 10K数据集的主要特点在于其采用了Protocol Buffer和Parquet文件格式，这两种格式分别保证了数据的紧凑性和高效读取。此外，数据集通过pandas DataFrame进行处理，使得数据分析更加灵活和高效。数据集还支持按用户ID进行分区存储，这为个性化分析提供了便利。最后，数据集通过Hugging Face Hub进行共享，便于研究者和开发者获取和使用。

使用方法

使用Anki Revlogs 10K数据集时，用户可以通过提供的Python脚本进行数据转换和下载。首先，使用build_parquet.py脚本将Protocol Buffer文件转换为Parquet格式。接着，通过download_from_hf.py脚本从Hugging Face Hub下载处理后的数据集。对于特定用户的分析，可以使用process_dataset.py脚本进行个性化数据处理。这些脚本的使用简化了数据集的获取和处理流程，使得研究者和开发者能够更专注于数据分析本身。

背景与挑战

背景概述

Anki Revlogs 10K数据集是由开放间隔重复项目团队创建的，旨在处理和分析Anki间隔重复学习系统的复习日志。该数据集的核心研究问题是如何高效地转换和存储复习日志数据，以便于进一步的分析和研究。通过使用Protocol Buffers和Parquet文件格式，该数据集提供了一种高效的数据处理和存储解决方案，对间隔重复学习领域的研究具有重要意义。

当前挑战

Anki Revlogs 10K数据集在构建过程中面临的主要挑战包括：1) 如何高效地将Protocol Buffer格式的复习日志转换为Parquet文件，以确保数据的高效存储和查询；2) 如何处理和分析大规模的用户数据，确保数据的隐私和安全；3) 如何将处理后的数据集上传至Hugging Face Hub，以便于共享和进一步的研究。这些挑战不仅涉及技术层面的数据处理和存储，还涉及数据隐私和共享的伦理问题。

常用场景

经典使用场景

Anki Revlogs 10K数据集在教育科技领域中被广泛用于分析和优化间隔重复学习算法。通过处理Anki软件生成的复习日志，研究者能够深入探讨学习者的复习行为和记忆效果。该数据集的经典使用场景包括：利用Pandas和PyArrow工具对复习日志进行转换和分析，生成Parquet文件格式，以便于大规模数据处理和存储。此外，数据集还支持上传至Hugging Face Hub，便于学术界和工业界的共享与协作。

解决学术问题

Anki Revlogs 10K数据集解决了教育心理学和计算机科学领域中关于间隔重复学习算法效果评估的关键问题。通过分析复习日志，研究者能够量化学习者的记忆衰退曲线，优化复习间隔，从而提升学习效率。该数据集为学术界提供了宝贵的实证数据，推动了个性化学习算法的发展，对教育科技领域的研究具有重要意义。

衍生相关工作

基于Anki Revlogs 10K数据集，研究者们开展了一系列相关工作，包括开发新的间隔重复算法、优化记忆模型以及构建个性化学习推荐系统。这些工作不仅提升了学习软件的智能化水平，还为教育心理学研究提供了丰富的实证数据。相关研究成果发表在多个顶级学术会议上，推动了教育科技领域的创新与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集