haripritam/telugutechbadi-gk
收藏Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haripritam/telugutechbadi-gk
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从Telugu Tech Badi网站抓取的常识(GK)问题。数据集经过数据清洗脚本处理,以提高可读性和分析性。数据格式为JSON Lines,每行代表一个JSON对象,包含泰卢固语的问题文本、指令和答案文本。
该数据集包含从Telugu Tech Badi网站抓取的常识(GK)问题。数据集经过数据清洗脚本处理,以提高可读性和分析性。数据格式为JSON Lines,每行代表一个JSON对象,包含泰卢固语的问题文本、指令和答案文本。
提供机构:
haripritam
原始信息汇总
泰卢固语常识问题数据集
概述
该数据集包含从泰卢固语技术巴迪网站抓取的常识问题。通过一个独立的数据清洗脚本对提取的问题进行优化,以提高可读性和分析性。
任务
任务目标
- 目标: 从一系列URL中提取常识问题。
- 挑战: 部分URL的格式与其他URL不同,因此需要针对特定URL修改代码。
数据清洗
脚本目标
- 目标: 优化提取的问题,以提高可读性和分析性。这包括移除如“问题编号”等指示符。
- 从抓取任务中读取JSON Lines文件,并创建一个包含清洗后数据的新文件。
- 验证数据中是否存在错误或空值。
数据格式
数据以JSON Lines格式保存,每行代表一个包含以下结构的JSON对象:
json { "input": "泰卢固语问题文本", "instruction": "泰卢固语指令", "output": "泰卢固语答案文本" }
来源
常识问题来自 - 泰卢固语技术巴迪



