five

mesolitica/chatgpt4-kertas1

收藏
Hugging Face2024-02-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mesolitica/chatgpt4-kertas1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过ChatGPT4生成的,来源于多个公开的马来语数据集,包括crawl-soalan、tatabahasabm.tripod.com的quiz-tatabahasa.jsonl和tatabahasabm.tripod.com-bm-kertas1.json。数据集包含多个文件,如synthetic-exam.jsonl、synthetic-latihanbm.jsonl等,每个文件包含不同数量的行和大小。数据集中包含问题和答案的示例,展示了其格式。

该数据集是通过ChatGPT4生成的,来源于多个公开的马来语数据集,包括crawl-soalan、tatabahasabm.tripod.com的quiz-tatabahasa.jsonl和tatabahasabm.tripod.com-bm-kertas1.json。数据集包含多个文件,如synthetic-exam.jsonl、synthetic-latihanbm.jsonl等,每个文件包含不同数量的行和大小。数据集中包含问题和答案的示例,展示了其格式。
提供机构:
mesolitica
原始信息汇总

合成 Kertas 1 数据集

数据集来源

该数据集由 ChatGPT4 生成,原始数据来自以下链接:

  1. https://huggingface.co/datasets/aisyahhrazak/crawl-soalan
  2. https://raw.githubusercontent.com/mesolitica/malaysian-dataset/master/llm-benchmark/tatabahasabm.tripod.com/quiz-tatabahasa.jsonl
  3. https://raw.githubusercontent.com/mesolitica/malaysian-dataset/master/llm-benchmark/tatabahasabm.tripod.com-bm-kertas-1/tatabahasabm.tripod.com-bm-kertas1.json

数据集文件

  • synthetic-exam.jsonl: 3612 行,606KB。
  • synthetic-latihanbm.jsonl: 4289 行,911 KB。
  • synthetic-tatabahasa-v2.jsonl: 5979 行,1.12 MB。
  • synthetic-tatabahasa.jsonl: 2005 行,374 KB。
  • synthetic-tatabahasabm.tripod.com-bm-kertas1.jsonl: 439 行,650 KB。

示例数据

python {question: 1. ........, kamu sudah pandai bermain gitar sekarang! A. Oh B. Eh C. Hai D. Ah, answer: B}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作