five

unlearning-cleanslate/fsid-curated-qwen3-8b

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/unlearning-cleanslate/fsid-curated-qwen3-8b
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置(forget、forget_pool、retain、retain_pool),主要用于分析文本内容(如歌词)在语言模型中的记忆行为。特征包括内容ID、标题、创作者、年份、歌词文本、记忆分数(memorized_fraction)、窗口索引、规则名称等,涉及不同拆分(如baseline、bm25_10B、bm25_6T、igm_10B)和池化数据。数据集旨在评估模型对特定内容的记忆和保留程度,支持NLP研究和模型优化。

This dataset includes multiple configurations (forget, forget_pool, retain, retain_pool) designed to analyze the memorization behavior of text content (e.g., lyrics) in language models. Features encompass content ID, title, creators, year, lyrics text, memorized fraction, window index, rule name, etc., with various splits (e.g., baseline, bm25_10B, bm25_6T, igm_10B) and pooled data. It aims to evaluate model memorization and retention of specific content, supporting NLP research and model optimization.
提供机构:
unlearning-cleanslate
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作