Nonameentered/karl-with-retrieval_t25
收藏Hugging Face2024-05-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Nonameentered/karl-with-retrieval_t25
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: user_id
dtype: string
- name: card_id
dtype: string
- name: card_text
dtype: string
- name: is_new_fact
dtype: bool
- name: user_n_study_positive
dtype: int64
- name: user_n_study_negative
dtype: int64
- name: user_n_study_total
dtype: int64
- name: card_n_study_positive
dtype: int64
- name: card_n_study_negative
dtype: int64
- name: card_n_study_total
dtype: int64
- name: usercard_n_study_positive
dtype: int64
- name: usercard_n_study_negative
dtype: int64
- name: usercard_n_study_total
dtype: int64
- name: acc_user
dtype: float64
- name: acc_card
dtype: float64
- name: acc_usercard
dtype: float64
- name: usercard_delta
dtype: int64
- name: usercard_delta_previous
dtype: int64
- name: usercard_previous_study_response
dtype: bool
- name: leitner_box
dtype: int64
- name: sm2_efactor
dtype: float64
- name: sm2_interval
dtype: float64
- name: sm2_repetition
dtype: int64
- name: delta_to_leitner_scheduled_date
dtype: int64
- name: delta_to_sm2_scheduled_date
dtype: int64
- name: repetition_model
dtype: string
- name: elapsed_milliseconds
dtype: int64
- name: correct_on_first_try
dtype: bool
- name: utc_datetime
dtype: timestamp[ns, tz=UTC]
- name: utc_date
dtype: date32
- name: response
dtype: bool
- name: record_id
dtype: string
- name: deck_id
dtype: string
- name: deck_name
dtype: string
- name: n_minutes_spent
dtype: int64
- name: __index_level_0__
dtype: int64
- name: bert_embedding
sequence: float32
- name: normalized_bert_embedding
sequence: float32
- name: top_similar_ids
sequence: int64
- name: top_similar_embeddings
sequence:
sequence: float64
- name: top_similarity_scores
sequence: float64
splits:
- name: train
num_bytes: 18911331417
num_examples: 123143
download_size: 11698650934
dataset_size: 18911331417
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
- 名称:用户ID(user_id),数据类型:字符串(string)
- 名称:卡片ID(card_id),数据类型:字符串
- 名称:卡片文本(card_text),数据类型:字符串
- 名称:是否为新事实(is_new_fact),数据类型:布尔型(bool)
- 名称:用户正向学习次数(user_n_study_positive),数据类型:64位整数(int64)
- 名称:用户负向学习次数(user_n_study_negative),数据类型:64位整数
- 名称:用户总学习次数(user_n_study_total),数据类型:64位整数
- 名称:卡片正向学习次数(card_n_study_positive),数据类型:64位整数
- 名称:卡片负向学习次数(card_n_study_negative),数据类型:64位整数
- 名称:卡片总学习次数(card_n_study_total),数据类型:64位整数
- 名称:用户-卡片对正向学习次数(usercard_n_study_positive),数据类型:64位整数
- 名称:用户-卡片对负向学习次数(usercard_n_study_negative),数据类型:64位整数
- 名称:用户-卡片对总学习次数(usercard_n_study_total),数据类型:64位整数
- 名称:用户准确率(acc_user),数据类型:64位浮点数(float64)
- 名称:卡片准确率(acc_card),数据类型:64位浮点数
- 名称:用户-卡片对准确率(acc_usercard),数据类型:64位浮点数
- 名称:用户-卡片对学习差值(usercard_delta),数据类型:64位整数
- 名称:用户-卡片对上一次学习差值(usercard_delta_previous),数据类型:64位整数
- 名称:用户-卡片对上一次学习反馈(usercard_previous_study_response),数据类型:布尔型
- 名称:莱特纳学习箱编号(leitner_box),数据类型:64位整数
- 名称:SM2算法难度系数(sm2_efactor),数据类型:64位浮点数
- 名称:SM2算法复习间隔时长(sm2_interval),数据类型:64位浮点数
- 名称:SM2算法复习次数(sm2_repetition),数据类型:64位整数
- 名称:与莱特纳计划复习日期的时间差(delta_to_leitner_scheduled_date),数据类型:64位整数
- 名称:与SM2算法计划复习日期的时间差(delta_to_sm2_scheduled_date),数据类型:64位整数
- 名称:复习模型类型(repetition_model),数据类型:字符串
- 名称:耗时毫秒数(elapsed_milliseconds),数据类型:64位整数
- 名称:首次尝试答对(correct_on_first_try),数据类型:布尔型
- 名称:UTC时间戳(utc_datetime),数据类型:带UTC时区的纳秒级时间戳(timestamp[ns, tz=UTC])
- 名称:UTC日期(utc_date),数据类型:32位日期类型(date32)
- 名称:学习反馈结果(response),数据类型:布尔型
- 名称:记录ID(record_id),数据类型:字符串
- 名称:卡组ID(deck_id),数据类型:字符串
- 名称:卡组名称(deck_name),数据类型:字符串
- 名称:花费时长(分钟)(n_minutes_spent),数据类型:64位整数
- 名称:索引层级0(__index_level_0__),数据类型:64位整数
- 名称:BERT嵌入(bert_embedding),数据类型:32位浮点数序列(sequence: float32)
- 名称:归一化BERT嵌入(normalized_bert_embedding),数据类型:32位浮点数序列
- 名称:相似项Top-ID列表(top_similar_ids),数据类型:64位整数序列
- 名称:相似项嵌入列表(top_similar_embeddings),数据类型:64位浮点数二维序列
- 名称:相似性得分列表(top_similarity_scores),数据类型:64位浮点数序列
划分集:
- 名称:训练集(train)
字节大小:18911331417
样本数量:123143
下载大小:11698650934
数据集总字节数:18911331417
配置项:
- 配置名称:默认配置(default)
数据文件:
- 划分集:训练集(train)
路径:data/train-*
提供机构:
Nonameentered
原始信息汇总
数据集概述
特征信息
数据集包含以下特征及其数据类型:
user_id: 字符串card_id: 字符串card_text: 字符串is_new_fact: 布尔值user_n_study_positive: 64位整数user_n_study_negative: 64位整数user_n_study_total: 64位整数card_n_study_positive: 64位整数card_n_study_negative: 64位整数card_n_study_total: 64位整数usercard_n_study_positive: 64位整数usercard_n_study_negative: 64位整数usercard_n_study_total: 64位整数acc_user: 64位浮点数acc_card: 64位浮点数acc_usercard: 64位浮点数usercard_delta: 64位整数usercard_delta_previous: 64位整数usercard_previous_study_response: 布尔值leitner_box: 64位整数sm2_efactor: 64位浮点数sm2_interval: 64位浮点数sm2_repetition: 64位整数delta_to_leitner_scheduled_date: 64位整数delta_to_sm2_scheduled_date: 64位整数repetition_model: 字符串elapsed_milliseconds: 64位整数correct_on_first_try: 布尔值utc_datetime: 时间戳(纳秒,UTC时区)utc_date: 日期(32位)response: 布尔值record_id: 字符串deck_id: 字符串deck_name: 字符串n_minutes_spent: 64位整数__index_level_0__: 64位整数bert_embedding: 浮点数序列normalized_bert_embedding: 浮点数序列top_similar_ids: 64位整数序列top_similar_embeddings: 双层浮点数序列top_similarity_scores: 浮点数序列
数据分割
数据集包含以下分割:
train: 包含123143个样本,占用18911331417字节
数据集大小
- 下载大小: 11698650934字节
- 数据集大小: 18911331417字节
配置信息
- 配置名称:
default - 数据文件路径:
data/train-*
搜集汇总
数据集介绍

构建方式
在自适应学习系统领域,Nonameentered/karl-with-retrieval_t25数据集的构建体现了对学习者交互行为的深度捕捉。该数据集源自真实的学习平台使用日志,通过记录用户对数字闪卡的学习事件而生成。每条数据条目不仅包含用户与卡片的标识符及文本内容,还整合了丰富的学习过程指标,如学习次数、正确率及时间戳等。构建过程中,系统性地提取了用户与卡片的历史交互序列,并应用了间隔重复算法(如Leitner系统和SM2)的调度参数,同时引入了基于BERT模型的嵌入表示以编码语义信息。此外,通过计算嵌入向量的相似度,为每个学习实例检索了最相关的历史记录,从而形成了具备检索增强特性的结构化数据集。
使用方法
该数据集适用于教育数据挖掘与个性化推荐系统的研究与实践。使用者可通过加载指定的训练分割,访问结构化的特征矩阵。典型应用包括构建和评估预测模型,例如基于用户历史行为和卡片语义来预测下一次学习响应(正确与否)。研究人员可利用用户、卡片及用户-卡片组合的各类准确率特征、间隔重复参数以及检索到的相似项目信息,作为模型的输入特征。同时,嵌入向量和相似性数据可用于探索知识结构的表示学习或改进检索增强型的学习算法。分析时需注意时序特性,并依据utc_datetime等字段进行合理的数据划分与验证,以避免数据泄露,确保模型评估的有效性。
背景与挑战
背景概述
在自适应学习与认知科学领域,精准预测学习者的知识状态与记忆巩固过程是核心研究议题。数据集Nonameentered/karl-with-retrieval_t25由匿名研究者或机构于近期构建,聚焦于间隔重复系统中的用户行为建模。该数据集整合了用户学习卡片的历史交互记录、基于SM2与莱特纳箱的间隔调度参数,以及通过BERT嵌入实现的语义检索特征,旨在探索个性化记忆预测与知识检索的协同机制。其多维度特征设计为理解人类记忆的动态演变提供了实证基础,推动了教育技术与计算认知模型的发展。
当前挑战
该数据集致力于解决自适应学习系统中记忆保持预测的复杂性问题,其挑战在于如何融合时序行为数据、心理测量指标与语义表示以构建鲁棒的预测模型。具体而言,领域问题的挑战涉及用户异质性导致的行为模式差异、记忆衰减曲线的非线性建模,以及检索增强机制对预测准确性的影响评估。在构建过程中,挑战包括多源学习日志的清洗与对齐、高维嵌入向量的计算与存储优化,以及隐私保护下用户数据的匿名化处理,这些因素共同增加了数据集的构建难度与应用门槛。
常用场景
经典使用场景
在自适应学习与记忆科学领域,该数据集以其丰富的用户-卡片交互记录,为研究间隔重复算法(如Leitner系统和SM2)的优化提供了关键支撑。经典使用场景聚焦于模拟学习者对知识卡片(如闪卡)的长期记忆过程,通过分析用户对卡片的响应正确率、学习间隔及历史表现等时序特征,构建个性化的复习调度模型,以预测未来学习效果并提升记忆保留率。
解决学术问题
该数据集有效解决了自适应教育技术中若干核心学术问题,包括如何量化个体记忆衰减规律、如何融合多源学习行为数据以增强预测准确性,以及如何评估不同间隔重复算法在真实场景下的性能差异。其意义在于为记忆模型的可解释性研究提供了大规模实证基础,推动了从静态知识追踪向动态记忆建模的范式转变,对教育数据挖掘与认知计算领域产生了深远影响。
实际应用
在实际应用层面,该数据集可直接服务于智能教育平台与闪卡学习工具的开发。通过集成用户学习历史与卡片语义嵌入(如BERT向量),系统能够实现个性化复习推荐、动态调整学习难度,并为教师提供学习者记忆状态的可视化分析。此类应用不仅优化了在线学习体验,也为企业培训、语言学习等场景提供了数据驱动的决策支持。
数据集最近研究
最新研究方向
在自适应学习与记忆科学领域,Nonameentered/karl-with-retrieval_t25数据集以其丰富的用户交互与认知追踪特征,正推动个性化教育技术的深度发展。该数据集整合了用户学习行为、卡片记忆效果及间隔重复算法(如Leitner和SM2)的详细指标,并引入了BERT嵌入与相似性检索机制,为研究记忆巩固与知识检索的神经计算模型提供了关键数据基础。前沿研究聚焦于利用其多维度时序数据,构建动态认知状态预测模型,以优化自适应学习系统的干预策略,同时探索检索增强生成(RAG)技术在教育场景中的应用潜力,旨在提升长期记忆保持与学习效率,对智能辅导系统与教育人工智能的演进具有显著意义。
以上内容由遇见数据集搜集并总结生成



