hllj/vi_math_problem_crawl
收藏数据集卡片:越南小学数学知识和练习册
数据集描述
数据集概述
该数据集包含越南小学数学知识信息以及从书籍中编译的练习题。这是一个可用于文本生成任务训练的数据集。
支持的任务和排行榜
语言
数据主要为越南语,但也有部分来自双语练习册的英语内容。
数据集结构
数据实例
数据包括我们爬取的页面路径和一些经过后处理的文本。结构如下:
python { "id": "d117388e2d5266a25404674ef61923c3", "url": "https://tech12h.com/bai-hoc/giai-bai-tap-khai-niem-ve-phan-so.html", "title": "Giải bài Ôn tập: khái niệm về phần số", "contents": ["Nội dung bài viết gồm 2 phần: Ôn tập lý thuyết Hướng dẫn giải bài tập sgk A. Lý thuyết $\frac{4}{5}$: Gọi là phân số - đọc là bốn phần 5 $\frac{1}{2}$: gọi là phân số - đọc là một phần 2 Chú ý: Có thể dùng phân số để ghi kết quả của phép chia giữa một số tự nhiên cho 1 số tự nhiên khác 0. Phân số đó cũng được gọi là thương của phép chia Ví dụ: 1:4 = $\frac{1}{4}$ 5: 10 =$\frac{5}{10}$ Mọi số tự nhiên đều có thể viết thành phân số có mẫu bằng 1 Ví dụ 5 =$\frac{5}{1}$ 12 =$\frac{12}{1}$ Số 1 có thể viết thành phân số có tử số và mẫu số bằng nhau. Trừ phân số có mẫu = 0 Ví dụ: 1 =$\frac{10}{10}$ 1 =$\frac{34}{34}$ Không được viết 1 =$\frac{0}{0}$ Số 0 có thể viết thành 1 phân số có tử số = 0. Trừ phân số có mẫu số = 0 Ví dụ 0 =$\frac{0}{2}$ 0 =$\frac{0}{100}$ Không được viết: 0 =$\frac{0}{0}$", "Câu 1: Trang 4 - sgk toán lớp 5 a). Đọc các phân số sau (\frac {5}{7}); (\frac {25}{100}); (\frac {91}{38}); (\frac {60}{17}); (\frac {85}{1000}); b). Nêu tử số và mẫu số của phân số trên Câu 2: Trang 4 - sgk toán lớp 5 Viết các thương dưới dạng phân số: 3 : 5; 75 : 100; 9 : 17 Câu 3: Sgk toán lớp 5 - Trang 4 Viết các số tự nhiên dưới dạng phân số có mẫu số là 1: 32; 105; 1000. Câu 4: Sgk toán lớp 5 - Trang 4 Viết số thích hợp vào chỗ trống "]}
数据字段
数据字段包括:
- id: 文本爬取实例的ID。
- url: 爬取页面的URL路径。
- title: 爬取页面的标题。
- contents: 文本语料列表。
数据集创建
策划理由
该数据集基于开发能够推理和解决小学数学问题的模型,以及在越南小学环境中提供数学知识。
源数据
数据从tech12h.com爬取,选择了1至5年级的数据,包括学生的课程和练习以及解答。
使用数据的注意事项
数据集的社会影响
我们相信,寻找数据源的努力将为未来的人工智能模型提供发展机会,并具有更好的推理能力。
讨论偏见
其他已知限制
当前数据未经过太好的清洗,存在许多不完整的数据样本,包括图像和一些后处理标签。



