five

PhucDanh/UIT-CourseInfo

收藏
Hugging Face2024-07-03 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/PhucDanh/UIT-CourseInfo
下载链接
链接失效反馈
官方服务:
资源简介:
UITCourseInfo数据集是一个包含4,230个样本的综合数据集,通过数据爬取技术从越南信息科技大学(UIT)的网站上收集。数据集包括课程摘要和学习项目的详细描述,涵盖了多个学科领域。数据集经过标注、数据增强和自动化验证等步骤,最终分为训练集、验证集和测试集,比例为7:2:1。该数据集适用于自然语言处理、教育数据分析和智能系统开发等领域,能够为学术研究、教育规划和学生体验提供支持。

The UITCourseInfo dataset is a comprehensive collection of 4,230 samples gathered through data crawling techniques from the University of Information Technology (UIT) website. The dataset includes detailed summaries of courses and extensive descriptions of various study programs, covering multiple fields of study. The dataset has undergone labeling, data augmentation, and automated verification processes, and is divided into training, validation, and test sets in a 7:2:1 ratio. This dataset is suitable for applications in natural language processing, educational data analysis, and the development of intelligent systems, providing support for academic research, educational planning, and student engagement.
提供机构:
PhucDanh
原始信息汇总

UITCourseInfo 数据集概述

数据集概述

  • 数据来源: 通过数据爬取技术从越南国立信息科技大学(UIT)的student.uit网站收集,包含4,230个样本。
  • 内容: 涵盖课程总结和学习项目的详细描述,反映UIT课程的多方面性质。
  • 应用领域: 适用于自然语言处理、教育数据分析和智能系统开发,旨在提升教育体验。
  • 潜在用途: 对学生、教育者和机构规划者有益,可用于分析教育趋势和改进课程设计。

数据集详情

  1. 数据收集来源:

    • 使用数据爬取技术自动收集,初始数据包含422个样本。
    • 数据来源为UIT的student.uit网站。
  2. 数据标注:

    • 使用Label Studio平台进行数据标注。
    • 采用投票技术确定最终标签,确保标注的准确性和公平性。
  3. 数据增强:

    • 使用GPT进行数据增强,采用“few-shot prompting”技术生成问答对。
  4. 自动数据验证:

    • 使用GPT进行测试和评估,确保生成的答案符合上下文。
    • 通过Python逻辑函数检查信息,确保答案不超出上下文范围。
  5. 数据统计和观察:

    • 数据集按7/2/1的比例分为训练集、验证集和测试集。
    • 训练集包含2,961个样本,验证集包含846个样本,测试集包含423个样本。

数据可视化

  1. 原始数据样本:

    • 示例展示了一个课程的上下文、问题和答案。
  2. 加载数据样本:

    • 提供Python代码示例,展示如何加载数据集。
  3. 数据利用:

    • 数据集可用于下游任务的微调,如抽取式问答。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作