SuperAI2-Machima/ThaiQA_LST20
收藏Hugging Face2022-02-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SuperAI2-Machima/ThaiQA_LST20
下载链接
链接失效反馈官方服务:
资源简介:
---
tags:
- question-generation dataset
- qa dataset
language:
- thai
- th
datasets:
- LST20
license: mit
---
[SuperAI Engineer Season 2](https://superai.aiat.or.th/) , [Machima](https://machchima.superai.me/)
Machima_ThaiQA_LST20 เป็นชุดข้อมูลที่สกัดหาคำถาม และคำตอบ จากบทความในชุดข้อมูล LST20 โดยสกัดได้คำถาม-ตอบทั้งหมด 7,642 คำถาม มีข้อมูล 4 คอลัมน์ ประกอบด้วย context, question, answer และ status ตามลำดับ
แสดงตัวอย่างดังนี้
context : ด.ต.ประสิทธิ์ ชาหอมชื่นอายุ 55 ปี ผบ.หมู่งาน ป.ตชด. 24 อุดรธานีถูกยิงด้วยอาวุธปืนอาก้าเข้าที่แขนซ้าย 3 นัดหน้าท้อง 1 นัดส.ต.อ.ประเสริฐ ใหญ่สูงเนินอายุ 35 ปี ผบ.หมู่กก. 1 ปส.2 บช.ปส. ถูกยิงเข้าที่แขนขวากระดูกแตกละเอียดร.ต.อ.ชวพล หมื่นโรจน์อายุ 32 ปีรอง สว.กก. 1 ปส. 2 บช.ปส. ถูกยิงเข้าที่แก้มและไหปลาร้าด้านขวา
question :ผบ.หมู่งาน ป.ตชด. 24 อุดรธานี ถูกยิงด้วยอาวุธปืนอะไรเข้าที่แขนซ้าย 3 นัดหน้าท้อง
answer : อาวุธปืนอาก้า
status : 1
ซึ่งใน 7,642 คำถาม จะมีคำถาม-ตอบ ที่สกัดออกมาได้ถูกต้อง และไม่ถูกต้องตาม ยกตัวอย่างเช่น ตอบไม่ตรงคำถาม หรือมีคำตอบอยู่ด้านในประโยคคำถาม
ทางทีมงานบ้านมณิมาได้ทำการตรวจสอบคำถามตอบ และทำการติด label ให้กับคู่ของคำถาม-ตอบ ที่ถูกต้อง และไม่ถูกต้อง โดย 1 = ถูกต้อง และ 0 = ไม่ถูกต้อง
จากคู่คำถาม-ตอบ 7,642 คำถาม
พบว่าถูกต้อง 4,438 คำถาม
ไม่ถูกต้อง 3,204 คำถาม
เพื่อน ๆ สามารถโหลดข้อมูลมาใช้โดยใช้โค้ดดังนี้
```python
!pip install datasets -qq #สำหรับโหลดdataset
from datasets import load_dataset
import pandas as pd
dataset = load_dataset("SuperAI2-Machima/ThaiQA_LST20")
train_df = pd.DataFrame(dataset['train'])
train_df
```
提供机构:
SuperAI2-Machima
原始信息汇总
数据集概述
名称: Machima_ThaiQA_LST20
描述: 该数据集是从LST20数据集中提取的问题和答案,共包含7,642个问题。数据集由4个主要列组成:context(上下文)、question(问题)、answer(答案)和status(状态)。
语言: 泰语(Thai)
许可: MIT
数据集内容
- 问题数量: 7,642个问题
- 数据结构: 包含4列数据
- context: 上下文信息
- question: 问题
- answer: 答案
- status: 状态(1表示正确,0表示不正确)
数据集状态
- 正确问题数量: 4,438个
- 不正确问题数量: 3,204个
数据集使用
数据集可通过以下代码加载使用:
python !pip install datasets -qq # 用于加载数据集 from datasets import load_dataset import pandas as pd
dataset = load_dataset("SuperAI2-Machima/ThaiQA_LST20") train_df = pd.DataFrame(dataset[train]) train_df



