TDS Data Repository

github2025-06-01 更新2025-06-10 收录

下载链接：

https://github.com/23f3004008/TDS-Project1-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含从两个来源抓取的原始数据：1. TDS 2025-01网站；2. TDS知识库在Discourse上的内容。数据包括：- Discourse帖子：从Discourse JSON API端点导出的主题帖子流的JSON文件；- 网站页面：从TDS 2025-01网站的HTML页面生成的Markdown文件。

This repository contains raw data scraped from two sources: 1. the TDS 2025-01 website; 2. the Discourse content of the TDS knowledge base. The data includes: - Discourse posts: JSON files of topic post streams exported from the Discourse JSON API endpoint; - Web pages: Markdown files generated from the HTML pages of the TDS 2025-01 website.

创建时间：

2025-05-31

原始信息汇总

TDS Data Repository 数据集概述

数据集来源

数据来源于两个渠道：
1. TDS 2025-01 网站（https://tds.s-anand.net/#/2025-01/）
2. TDS Knowledge Base on Discourse 论坛（https://discourse.onlinedegree.iitm.ac.in/c/courses/tds-kb/34）

数据内容

Discourse 论坛帖子：以 JSON 格式存储，包含从 Discourse JSON API 端点导出的主题帖子流。
网站页面：以 Markdown 格式存储，由 TDS 2025-01 网站的 HTML 页面生成。

数据结构

discourse_posts.json：包含所有 Discourse 帖子的单一 JSON 文件。
discourse_json/：包含每个主题帖子流的单独 JSON 文件的目录。
tds_pages_md/：包含从 TDS 2025-01 网站抓取的每个页面的 Markdown 文件的目录。

安装与使用

克隆仓库 bash git clone https://github.com/23f3004008/TDS-Project1-Data.git cd TDS-Project1-Data
下载数据
- 下载 Discourse 帖子： bash python discourse_downloader_full.py
- 下载网站页面： bash python website_downloader_full.py
查看数据
- Discourse 帖子：直接查看 discourse_posts.json 文件或使用 JSON 查看器。
- 网站页面：使用文本编辑器或 Markdown 查看器打开 tds_pages_md/ 目录中的文件。

警告

使用此数据集需自行承担风险，不保证数据的完整性和正确性。

许可证

本项目采用 MIT 许可证，详情见 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

TDS Data Repository数据集的构建依托于网络爬虫技术，从两个权威的教育科技平台系统性地采集原始数据。技术团队通过Discourse平台的JSON API端点获取课程讨论区的主题帖流，将其转化为结构化JSON格式；同时采用HTML解析技术将TDS 2025-01官网页面转化为标准化的Markdown文档。数据采集过程严格遵循网页语义结构，确保信息抽取的完整性与准确性，最终形成包含统一格式的讨论区数据和课程网页文档的复合型数据集。

特点

该数据集呈现鲜明的多模态特征，既包含非结构化的课程讨论文本，又涵盖结构化的网页内容数据。讨论区数据完整保留了用户交互的时序特征和话题关联性，而转换后的Markdown文档则完美复现了原始网页的知识组织结构。数据集采用分层存储设计，既提供聚合后的单一JSON文件便于整体分析，又保留原始分片数据满足细粒度研究需求，这种设计显著提升了数据访问的灵活性和研究效率。

使用方法

研究者可通过Git命令直接克隆整个代码库，利用预置的Python脚本实现数据的自动化更新与下载。对于讨论区数据，内置的JSON解析器支持直接加载全量数据集进行分析；而课程网页数据则可通过标准Markdown阅读器逐文件查阅。数据集配套的依赖管理文件requirements.txt确保了运行环境的快速配置，MIT开源协议则为学术研究和商业应用提供了明确的法律保障。

背景与挑战

背景概述

TDS Data Repository作为一个专注于教育技术领域的数据集，由开源社区在2025年初创建，旨在整合来自TDS 2025-01在线课程平台和Discourse知识库的多样化学习资源。该数据集的核心研究问题聚焦于如何通过结构化存储和高效访问机制，支持在线教育场景下的知识挖掘与学习行为分析。其独特价值在于融合了论坛讨论的时序性文本数据与课程网页的静态内容，为教育数据挖掘领域提供了多模态研究素材，对个性化学习推荐系统和智能教育助手的发展具有显著推动作用。

当前挑战

该数据集面临的主要挑战体现在两个维度：在领域问题层面，如何从非结构化的论坛讨论和课程内容中提取有效的教育特征，解决自然语言处理中的语义歧义和课程知识图谱构建难题；在构建过程层面，原始数据的异构性导致采集时需要处理API返回的JSON与网页HTML的混合格式，而Discourse平台的话题树状结构增加了数据清洗的复杂度。同时，数据完整性的验证也因动态更新的在线内容而变得尤为困难。

常用场景

经典使用场景

TDS Data Repository数据集在教育技术领域具有重要价值，其经典使用场景包括在线教育平台的内容分析和知识管理研究。研究人员可通过分析Discourse论坛的讨论帖子和课程网页的Markdown文件，探索学习者的互动模式、知识构建过程以及课程内容的组织方式。这类分析为在线教育平台的优化提供了数据支持。

衍生相关工作

基于该数据集已产生多项重要研究，包括在线学习社区知识图谱构建、学习者行为模式挖掘以及教育内容自动评估系统的开发。这些工作不仅拓展了教育数据挖掘的研究边界，也为智能教育系统的设计提供了新思路。部分研究进一步整合了自然语言处理技术，实现了对教育文本的深度分析。

数据集最近研究