Nonameentered/karl-with-retrieval_t25

Name: Nonameentered/karl-with-retrieval_t25
Creator: Nonameentered
Published: 2024-05-25 06:09:53
License: 暂无描述

Hugging Face2024-05-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Nonameentered/karl-with-retrieval_t25

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: user_id dtype: string - name: card_id dtype: string - name: card_text dtype: string - name: is_new_fact dtype: bool - name: user_n_study_positive dtype: int64 - name: user_n_study_negative dtype: int64 - name: user_n_study_total dtype: int64 - name: card_n_study_positive dtype: int64 - name: card_n_study_negative dtype: int64 - name: card_n_study_total dtype: int64 - name: usercard_n_study_positive dtype: int64 - name: usercard_n_study_negative dtype: int64 - name: usercard_n_study_total dtype: int64 - name: acc_user dtype: float64 - name: acc_card dtype: float64 - name: acc_usercard dtype: float64 - name: usercard_delta dtype: int64 - name: usercard_delta_previous dtype: int64 - name: usercard_previous_study_response dtype: bool - name: leitner_box dtype: int64 - name: sm2_efactor dtype: float64 - name: sm2_interval dtype: float64 - name: sm2_repetition dtype: int64 - name: delta_to_leitner_scheduled_date dtype: int64 - name: delta_to_sm2_scheduled_date dtype: int64 - name: repetition_model dtype: string - name: elapsed_milliseconds dtype: int64 - name: correct_on_first_try dtype: bool - name: utc_datetime dtype: timestamp[ns, tz=UTC] - name: utc_date dtype: date32 - name: response dtype: bool - name: record_id dtype: string - name: deck_id dtype: string - name: deck_name dtype: string - name: n_minutes_spent dtype: int64 - name: __index_level_0__ dtype: int64 - name: bert_embedding sequence: float32 - name: normalized_bert_embedding sequence: float32 - name: top_similar_ids sequence: int64 - name: top_similar_embeddings sequence: sequence: float64 - name: top_similarity_scores sequence: float64 splits: - name: train num_bytes: 18911331417 num_examples: 123143 download_size: 11698650934 dataset_size: 18911331417 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征： - 名称：用户ID（user_id），数据类型：字符串（string） - 名称：卡片ID（card_id），数据类型：字符串 - 名称：卡片文本（card_text），数据类型：字符串 - 名称：是否为新事实（is_new_fact），数据类型：布尔型（bool） - 名称：用户正向学习次数（user_n_study_positive），数据类型：64位整数（int64） - 名称：用户负向学习次数（user_n_study_negative），数据类型：64位整数 - 名称：用户总学习次数（user_n_study_total），数据类型：64位整数 - 名称：卡片正向学习次数（card_n_study_positive），数据类型：64位整数 - 名称：卡片负向学习次数（card_n_study_negative），数据类型：64位整数 - 名称：卡片总学习次数（card_n_study_total），数据类型：64位整数 - 名称：用户-卡片对正向学习次数（usercard_n_study_positive），数据类型：64位整数 - 名称：用户-卡片对负向学习次数（usercard_n_study_negative），数据类型：64位整数 - 名称：用户-卡片对总学习次数（usercard_n_study_total），数据类型：64位整数 - 名称：用户准确率（acc_user），数据类型：64位浮点数（float64） - 名称：卡片准确率（acc_card），数据类型：64位浮点数 - 名称：用户-卡片对准确率（acc_usercard），数据类型：64位浮点数 - 名称：用户-卡片对学习差值（usercard_delta），数据类型：64位整数 - 名称：用户-卡片对上一次学习差值（usercard_delta_previous），数据类型：64位整数 - 名称：用户-卡片对上一次学习反馈（usercard_previous_study_response），数据类型：布尔型 - 名称：莱特纳学习箱编号（leitner_box），数据类型：64位整数 - 名称：SM2算法难度系数（sm2_efactor），数据类型：64位浮点数 - 名称：SM2算法复习间隔时长（sm2_interval），数据类型：64位浮点数 - 名称：SM2算法复习次数（sm2_repetition），数据类型：64位整数 - 名称：与莱特纳计划复习日期的时间差（delta_to_leitner_scheduled_date），数据类型：64位整数 - 名称：与SM2算法计划复习日期的时间差（delta_to_sm2_scheduled_date），数据类型：64位整数 - 名称：复习模型类型（repetition_model），数据类型：字符串 - 名称：耗时毫秒数（elapsed_milliseconds），数据类型：64位整数 - 名称：首次尝试答对（correct_on_first_try），数据类型：布尔型 - 名称：UTC时间戳（utc_datetime），数据类型：带UTC时区的纳秒级时间戳（timestamp[ns, tz=UTC]） - 名称：UTC日期（utc_date），数据类型：32位日期类型（date32） - 名称：学习反馈结果（response），数据类型：布尔型 - 名称：记录ID（record_id），数据类型：字符串 - 名称：卡组ID（deck_id），数据类型：字符串 - 名称：卡组名称（deck_name），数据类型：字符串 - 名称：花费时长（分钟）（n_minutes_spent），数据类型：64位整数 - 名称：索引层级0（__index_level_0__），数据类型：64位整数 - 名称：BERT嵌入（bert_embedding），数据类型：32位浮点数序列（sequence: float32） - 名称：归一化BERT嵌入（normalized_bert_embedding），数据类型：32位浮点数序列 - 名称：相似项Top-ID列表（top_similar_ids），数据类型：64位整数序列 - 名称：相似项嵌入列表（top_similar_embeddings），数据类型：64位浮点数二维序列 - 名称：相似性得分列表（top_similarity_scores），数据类型：64位浮点数序列划分集： - 名称：训练集（train）字节大小：18911331417 样本数量：123143 下载大小：11698650934 数据集总字节数：18911331417 配置项： - 配置名称：默认配置（default）数据文件： - 划分集：训练集（train）路径：data/train-*

提供机构：

Nonameentered

原始信息汇总

数据集概述

特征信息

数据集包含以下特征及其数据类型：

user_id: 字符串
card_id: 字符串
card_text: 字符串
is_new_fact: 布尔值
user_n_study_positive: 64位整数
user_n_study_negative: 64位整数
user_n_study_total: 64位整数
card_n_study_positive: 64位整数
card_n_study_negative: 64位整数
card_n_study_total: 64位整数
usercard_n_study_positive: 64位整数
usercard_n_study_negative: 64位整数
usercard_n_study_total: 64位整数
acc_user: 64位浮点数
acc_card: 64位浮点数
acc_usercard: 64位浮点数
usercard_delta: 64位整数
usercard_delta_previous: 64位整数
usercard_previous_study_response: 布尔值
leitner_box: 64位整数
sm2_efactor: 64位浮点数
sm2_interval: 64位浮点数
sm2_repetition: 64位整数
delta_to_leitner_scheduled_date: 64位整数
delta_to_sm2_scheduled_date: 64位整数
repetition_model: 字符串
elapsed_milliseconds: 64位整数
correct_on_first_try: 布尔值
utc_datetime: 时间戳（纳秒，UTC时区）
utc_date: 日期（32位）
response: 布尔值
record_id: 字符串
deck_id: 字符串
deck_name: 字符串
n_minutes_spent: 64位整数
__index_level_0__: 64位整数
bert_embedding: 浮点数序列
normalized_bert_embedding: 浮点数序列
top_similar_ids: 64位整数序列
top_similar_embeddings: 双层浮点数序列
top_similarity_scores: 浮点数序列

数据分割

数据集包含以下分割：

train: 包含123143个样本，占用18911331417字节

数据集大小

下载大小: 11698650934字节
数据集大小: 18911331417字节

配置信息

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在自适应学习系统领域，Nonameentered/karl-with-retrieval_t25数据集的构建体现了对学习者交互行为的深度捕捉。该数据集源自真实的学习平台使用日志，通过记录用户对数字闪卡的学习事件而生成。每条数据条目不仅包含用户与卡片的标识符及文本内容，还整合了丰富的学习过程指标，如学习次数、正确率及时间戳等。构建过程中，系统性地提取了用户与卡片的历史交互序列，并应用了间隔重复算法（如Leitner系统和SM2）的调度参数，同时引入了基于BERT模型的嵌入表示以编码语义信息。此外，通过计算嵌入向量的相似度，为每个学习实例检索了最相关的历史记录，从而形成了具备检索增强特性的结构化数据集。

使用方法

该数据集适用于教育数据挖掘与个性化推荐系统的研究与实践。使用者可通过加载指定的训练分割，访问结构化的特征矩阵。典型应用包括构建和评估预测模型，例如基于用户历史行为和卡片语义来预测下一次学习响应（正确与否）。研究人员可利用用户、卡片及用户-卡片组合的各类准确率特征、间隔重复参数以及检索到的相似项目信息，作为模型的输入特征。同时，嵌入向量和相似性数据可用于探索知识结构的表示学习或改进检索增强型的学习算法。分析时需注意时序特性，并依据utc_datetime等字段进行合理的数据划分与验证，以避免数据泄露，确保模型评估的有效性。

背景与挑战

背景概述

在自适应学习与认知科学领域，精准预测学习者的知识状态与记忆巩固过程是核心研究议题。数据集Nonameentered/karl-with-retrieval_t25由匿名研究者或机构于近期构建，聚焦于间隔重复系统中的用户行为建模。该数据集整合了用户学习卡片的历史交互记录、基于SM2与莱特纳箱的间隔调度参数，以及通过BERT嵌入实现的语义检索特征，旨在探索个性化记忆预测与知识检索的协同机制。其多维度特征设计为理解人类记忆的动态演变提供了实证基础，推动了教育技术与计算认知模型的发展。

当前挑战

该数据集致力于解决自适应学习系统中记忆保持预测的复杂性问题，其挑战在于如何融合时序行为数据、心理测量指标与语义表示以构建鲁棒的预测模型。具体而言，领域问题的挑战涉及用户异质性导致的行为模式差异、记忆衰减曲线的非线性建模，以及检索增强机制对预测准确性的影响评估。在构建过程中，挑战包括多源学习日志的清洗与对齐、高维嵌入向量的计算与存储优化，以及隐私保护下用户数据的匿名化处理，这些因素共同增加了数据集的构建难度与应用门槛。

常用场景

经典使用场景

在自适应学习与记忆科学领域，该数据集以其丰富的用户-卡片交互记录，为研究间隔重复算法（如Leitner系统和SM2）的优化提供了关键支撑。经典使用场景聚焦于模拟学习者对知识卡片（如闪卡）的长期记忆过程，通过分析用户对卡片的响应正确率、学习间隔及历史表现等时序特征，构建个性化的复习调度模型，以预测未来学习效果并提升记忆保留率。

解决学术问题

该数据集有效解决了自适应教育技术中若干核心学术问题，包括如何量化个体记忆衰减规律、如何融合多源学习行为数据以增强预测准确性，以及如何评估不同间隔重复算法在真实场景下的性能差异。其意义在于为记忆模型的可解释性研究提供了大规模实证基础，推动了从静态知识追踪向动态记忆建模的范式转变，对教育数据挖掘与认知计算领域产生了深远影响。

实际应用

在实际应用层面，该数据集可直接服务于智能教育平台与闪卡学习工具的开发。通过集成用户学习历史与卡片语义嵌入（如BERT向量），系统能够实现个性化复习推荐、动态调整学习难度，并为教师提供学习者记忆状态的可视化分析。此类应用不仅优化了在线学习体验，也为企业培训、语言学习等场景提供了数据驱动的决策支持。

数据集最近研究