five

SuperAI2-Machima/ThaiQA_LST20

收藏
Hugging Face2022-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SuperAI2-Machima/ThaiQA_LST20
下载链接
链接失效反馈
官方服务:
资源简介:
--- tags: - question-generation dataset - qa dataset language: - thai - th datasets: - LST20 license: mit --- [SuperAI Engineer Season 2](https://superai.aiat.or.th/) , [Machima](https://machchima.superai.me/) Machima_ThaiQA_LST20 เป็นชุดข้อมูลที่สกัดหาคำถาม และคำตอบ จากบทความในชุดข้อมูล LST20 โดยสกัดได้คำถาม-ตอบทั้งหมด 7,642 คำถาม มีข้อมูล 4 คอลัมน์ ประกอบด้วย context, question, answer และ status ตามลำดับ แสดงตัวอย่างดังนี้ context : ด.ต.ประสิทธิ์ ชาหอมชื่นอายุ 55 ปี ผบ.หมู่งาน ป.ตชด. 24 อุดรธานีถูกยิงด้วยอาวุธปืนอาก้าเข้าที่แขนซ้าย 3 นัดหน้าท้อง 1 นัดส.ต.อ.ประเสริฐ ใหญ่สูงเนินอายุ 35 ปี ผบ.หมู่กก. 1 ปส.2 บช.ปส. ถูกยิงเข้าที่แขนขวากระดูกแตกละเอียดร.ต.อ.ชวพล หมื่นโรจน์อายุ 32 ปีรอง สว.กก. 1 ปส. 2 บช.ปส. ถูกยิงเข้าที่แก้มและไหปลาร้าด้านขวา question :ผบ.หมู่งาน ป.ตชด. 24 อุดรธานี ถูกยิงด้วยอาวุธปืนอะไรเข้าที่แขนซ้าย 3 นัดหน้าท้อง answer : อาวุธปืนอาก้า status : 1 ซึ่งใน 7,642 คำถาม จะมีคำถาม-ตอบ ที่สกัดออกมาได้ถูกต้อง และไม่ถูกต้องตาม ยกตัวอย่างเช่น ตอบไม่ตรงคำถาม หรือมีคำตอบอยู่ด้านในประโยคคำถาม ทางทีมงานบ้านมณิมาได้ทำการตรวจสอบคำถามตอบ และทำการติด label ให้กับคู่ของคำถาม-ตอบ ที่ถูกต้อง และไม่ถูกต้อง โดย 1 = ถูกต้อง และ 0 = ไม่ถูกต้อง จากคู่คำถาม-ตอบ 7,642 คำถาม พบว่าถูกต้อง 4,438 คำถาม ไม่ถูกต้อง 3,204 คำถาม เพื่อน ๆ สามารถโหลดข้อมูลมาใช้โดยใช้โค้ดดังนี้ ```python !pip install datasets -qq #สำหรับโหลดdataset from datasets import load_dataset import pandas as pd dataset = load_dataset("SuperAI2-Machima/ThaiQA_LST20") train_df = pd.DataFrame(dataset['train']) train_df ```
提供机构:
SuperAI2-Machima
原始信息汇总

数据集概述

名称: Machima_ThaiQA_LST20

描述: 该数据集是从LST20数据集中提取的问题和答案,共包含7,642个问题。数据集由4个主要列组成:context(上下文)、question(问题)、answer(答案)和status(状态)。

语言: 泰语(Thai)

许可: MIT

数据集内容

  • 问题数量: 7,642个问题
  • 数据结构: 包含4列数据
    • context: 上下文信息
    • question: 问题
    • answer: 答案
    • status: 状态(1表示正确,0表示不正确)

数据集状态

  • 正确问题数量: 4,438个
  • 不正确问题数量: 3,204个

数据集使用

数据集可通过以下代码加载使用:

python !pip install datasets -qq # 用于加载数据集 from datasets import load_dataset import pandas as pd

dataset = load_dataset("SuperAI2-Machima/ThaiQA_LST20") train_df = pd.DataFrame(dataset[train]) train_df

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作