five

haripritam/telugutechbadi-gk

收藏
Hugging Face2024-03-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/haripritam/telugutechbadi-gk
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从Telugu Tech Badi网站抓取的常识(GK)问题。数据集经过数据清洗脚本处理,以提高可读性和分析性。数据格式为JSON Lines,每行代表一个JSON对象,包含泰卢固语的问题文本、指令和答案文本。

该数据集包含从Telugu Tech Badi网站抓取的常识(GK)问题。数据集经过数据清洗脚本处理,以提高可读性和分析性。数据格式为JSON Lines,每行代表一个JSON对象,包含泰卢固语的问题文本、指令和答案文本。
提供机构:
haripritam
原始信息汇总

泰卢固语常识问题数据集

概述

该数据集包含从泰卢固语技术巴迪网站抓取的常识问题。通过一个独立的数据清洗脚本对提取的问题进行优化,以提高可读性和分析性。

任务

任务目标

  • 目标: 从一系列URL中提取常识问题。
  • 挑战: 部分URL的格式与其他URL不同,因此需要针对特定URL修改代码。

数据清洗

脚本目标

  • 目标: 优化提取的问题,以提高可读性和分析性。这包括移除如“问题编号”等指示符。
  • 从抓取任务中读取JSON Lines文件,并创建一个包含清洗后数据的新文件。
  • 验证数据中是否存在错误或空值。

数据格式

数据以JSON Lines格式保存,每行代表一个包含以下结构的JSON对象:

json { "input": "泰卢固语问题文本", "instruction": "泰卢固语指令", "output": "泰卢固语答案文本" }

来源

常识问题来自 - 泰卢固语技术巴迪

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作