Puidii/aalen_university_faculty_computer_science
收藏Hugging Face2024-04-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Puidii/aalen_university_faculty_computer_science
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含来自德国阿伦大学计算机科学学院所有学习课程的问答对。训练数据集由ChatGPT自动生成,验证数据集则手动创建。数据集用于基于LLM微调的问答聊天机器人训练。数据集来自阿伦大学网站,包含从12个学习课程中提取的439个.txt文件,总计3.1兆字节的文本。ChatGPT API(GPT3.5)用于从原始文本数据中提取问答对。数据集已匿名化,所有真实姓名和数字均已更改。
该数据集包含来自德国阿伦大学计算机科学学院所有学习课程的问答对。训练数据集由ChatGPT自动生成,验证数据集则手动创建。数据集用于基于LLM微调的问答聊天机器人训练。数据集来自阿伦大学网站,包含从12个学习课程中提取的439个.txt文件,总计3.1兆字节的文本。ChatGPT API(GPT3.5)用于从原始文本数据中提取问答对。数据集已匿名化,所有真实姓名和数字均已更改。
提供机构:
Puidii
原始信息汇总
数据集卡片
数据集详情
数据集描述
该数据集包含来自德国阿伦大学计算机科学学院所有学习项目的问答对。训练数据集由ChatGPT自动生成,验证数据集由人工创建。数据集的创建旨在训练基于LLM微调的问答聊天机器人。所有使用的脚本和示例可以在链接的GitHub仓库中找到。
数据集作为一项研究项目的一部分创建。所有真实姓名和数字均已更改。数据来自阿伦大学的网站,包含从计算机科学学院所有学习项目中提取的问答对,包括课程内容、教职工或大学活动直至2023年11月。所有包含的信息均从https://www.hs-aalen.de/ 抓取,共生成439个.txt文件,来自12个学习项目(3.1兆字节的文本)。ChatGPT API(GPT3.5)用于从原始文本数据中提取问答对。
- 策划者: Patrick Müller
- 语言(NLP): 英语
- 许可证: MIT许可证
数据集来源 [可选]
- 仓库: https://github.com/pattplatt/llm_dataset_creation_and_finetuning
用途
- 用于LLM微调,特别是在计算能力有限的情况下,由于问答对序列长度较短。
- 评估由LLMs提取和创建的数据集。
超出范围的用途
该数据集不涵盖阿伦大学计算机科学学院学习项目的全部内容。数据不一定反映阿伦大学的真实和完整内容。此外,数据尚未完全检查其准确性。
数据集结构
数据集的结构基于著名的lima数据集:https://huggingface.co/datasets/GAIR/lima
数据集创建
策划理由
动机是测试LLMs如何用于自动化数据集创建。
数据收集和处理
使用BeautifulSoup和Request进行抓取。ChatGPT API用于提取问答对。
个人和敏感信息
数据集已匿名化,所有姓名、电子邮件和数字均已更改。
数据集卡片作者 [可选]
Patrick M.
数据集卡片联系
您可以通过HF联系我。



