SCP-116K

github2025-02-07 更新2025-02-10 收录

下载链接：

https://github.com/AQA6666/SCP-116K-open

下载链接

链接失效反馈

官方服务：

资源简介：

一个高质量的问题-解决方案数据集，用于高等教育科学领域自动化提取的通用管道。

A high-quality question-solution dataset for general automated extraction pipelines in the field of higher education science.

创建时间：

2025-01-26

原始信息汇总

SCP-116K 数据集概述

数据集简介

数据集名称：SCP-116K
相关论文：SCP-116K: A High-Quality Problem-Solution Dataset and a Generalized Pipeline for Automated Extraction in the Higher Education Science Domain
数据集获取：Hugging Face Dataset

数据集内容

数据集包含：从互联网上公开文档自动提取的高质量问题解决方案对
数据集构成：问题-解决方案对

处理流程

fileter_doc_from_lib_meta.py：从数据库元数据中过滤和识别潜在的可用文档
transfer_pdf_to_text_with_4o.py：使用增强OCR功能将PDF文档转换为文本格式
get_doc_page_unit_start_index.py：生成页面和单元索引，以便更好地组织内容
split_doc_to_chunk_by_llm_index.py：使用LLM-based索引将文档拆分为可管理的块
extract_problem_and_solution_from_doc_text.py：从处理后的文本中提取潜在的问题-解决方案对
filter_problem_and_solution.py：过滤和验证提取的问题-解决方案对
recall_solutions_for_problems.py：将问题与相应的解决方案进行匹配
judge_problems_and_solutions_match.py：验证和确认匹配的问题-解决方案对

使用指南

每个步骤的详细信息和使用方法，请参考：
- 此存储库中的各个Python文件
- 相关研究论文

引用信息

bibtex @misc{lu2025scp116khighqualityproblemsolutiondataset, title={SCP-116K: A High-Quality Problem-Solution Dataset and a Generalized Pipeline for Automated Extraction in the Higher Education Science Domain}, author={Dakuan Lu and Xiaoyu Tan and Rui Xu and Tianchu Yao and Chao Qu and Wei Chu and Yinghui Xu and Yuan Qi}, year={2025}, eprint={2501.15587}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.15587}, }

许可信息

数据集许可：CC-BY-NC-SA 4.0
代码许可：MIT License

搜集汇总

数据集介绍

构建方式

SCP-116K数据集通过构建一个自动化的问题解决方案提取流程，从互联网上抓取的公开文档中自动提取高质量的问题解决方案对。此流程包括文档筛选、PDF文本转换、内容组织索引、文档分块、问题解决方案提取、筛选验证以及匹配验证等多个步骤，以确保数据集的质量和可用性。

使用方法

用户可以通过查阅代码库中的各个Python文件以及相关研究论文来详细了解每个步骤的使用方法。数据集的使用遵循特定的许可协议，用户需遵守CC-BY-NC-SA 4.0版权协议，而代码则遵循MIT许可证。

背景与挑战

背景概述

SCP-116K数据集是一项专注于高等教育科学领域的问题解决方案对自动提取的研究成果，由Dakuan Lu和Xiaoyu Tan等研究人员于2025年提出。该数据集旨在通过构建一个高质量的、包含问题与解决方案对的数据集，推进自动提取技术的发展。SCP-116K的创建，不仅丰富了教育技术领域的研究资源，也为自然语言处理和知识图谱构建等领域提供了新的研究方向，对相关领域产生了深远的影响。

当前挑战

SCP-116K数据集在构建过程中面临的挑战主要包括：如何从众多公开文档中自动化提取高质量的问题解决方案对，以及如何确保提取结果的有效性和准确性。此外，数据集构建还需克服文档格式的多样性、文本内容的复杂性以及信息提取的泛化能力等难题。在应用层面，如何将提取的问题解决方案对与实际教学场景相结合，实现教育资源的智能推荐与优化，也是当前面临的一大挑战。

常用场景

经典使用场景

在高等教育科学领域，SCP-116K数据集通过其自动化提取的问题解决方案对，被广泛用于自然语言处理任务中的文本理解和生成。该数据集的核心应用场景在于，研究人员可以利用其进行问题解决方案的识别、匹配与验证，进而提升机器学习模型对科学文献内容的解析能力。

解决学术问题

SCP-116K数据集的构建，有效地解决了学术研究中对高质量问题解决方案对的迫切需求。它不仅促进了科学文献自动化解析技术的发展，还为教育领域提供了一种高效的知识获取方法，对提高学术研究效率和质量具有显著意义。

实际应用

实际应用中，该数据集可用于教育资源的智能筛选和推荐系统，支持学生和研究者快速定位问题解决方案，优化学习与研究流程。同时，它也可被集成到在线教育平台中，为用户提供个性化的学习支持和辅导。

数据集最近研究