five

hllj/vi_math_problem_crawl

收藏
Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hllj/vi_math_problem_crawl
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含越南小学数学知识和练习题的文本数据,数据是从tech12h.com网站上爬取的,涵盖了1到5年级的课程和练习题,并附有解答。数据集的主要用途是用于文本生成任务,特别是针对越南小学数学问题的推理和解答。数据集中的大部分文本是越南语,但也包含一些英语内容。数据集的创建目的是为了开发能够推理和解决小学数学问题的模型,并提供越南小学数学环境中的数学知识。

该数据集包含越南小学数学知识和练习题的文本数据,数据是从tech12h.com网站上爬取的,涵盖了1到5年级的课程和练习题,并附有解答。数据集的主要用途是用于文本生成任务,特别是针对越南小学数学问题的推理和解答。数据集中的大部分文本是越南语,但也包含一些英语内容。数据集的创建目的是为了开发能够推理和解决小学数学问题的模型,并提供越南小学数学环境中的数学知识。
提供机构:
hllj
原始信息汇总

数据集卡片:越南小学数学知识和练习册

数据集描述

数据集概述

该数据集包含越南小学数学知识信息以及从书籍中编译的练习题。这是一个可用于文本生成任务训练的数据集。

支持的任务和排行榜

语言

数据主要为越南语,但也有部分来自双语练习册的英语内容。

数据集结构

数据实例

数据包括我们爬取的页面路径和一些经过后处理的文本。结构如下:

python { "id": "d117388e2d5266a25404674ef61923c3", "url": "https://tech12h.com/bai-hoc/giai-bai-tap-khai-niem-ve-phan-so.html", "title": "Giải bài Ôn tập: khái niệm về phần số", "contents": ["Nội dung bài viết gồm 2 phần: Ôn tập lý thuyết Hướng dẫn giải bài tập sgk A. Lý thuyết $\frac{4}{5}$: Gọi là phân số - đọc là bốn phần 5 $\frac{1}{2}$: gọi là phân số - đọc là một phần 2 Chú ý: Có thể dùng phân số để ghi kết quả của phép chia giữa một số tự nhiên cho 1 số tự nhiên khác 0. Phân số đó cũng được gọi là thương của phép chia Ví dụ: 1:4 = $\frac{1}{4}$ 5: 10 =$\frac{5}{10}$ Mọi số tự nhiên đều có thể viết thành phân số có mẫu bằng 1 Ví dụ 5 =$\frac{5}{1}$ 12 =$\frac{12}{1}$ Số 1 có thể viết thành phân số có tử số và mẫu số bằng nhau. Trừ phân số có mẫu = 0 Ví dụ: 1 =$\frac{10}{10}$ 1 =$\frac{34}{34}$ Không được viết 1 =$\frac{0}{0}$ Số 0 có thể viết thành 1 phân số có tử số = 0. Trừ phân số có mẫu số = 0 Ví dụ 0 =$\frac{0}{2}$ 0 =$\frac{0}{100}$ Không được viết: 0 =$\frac{0}{0}$", "Câu 1: Trang 4 - sgk toán lớp 5 a). Đọc các phân số sau (\frac {5}{7}); (\frac {25}{100}); (\frac {91}{38}); (\frac {60}{17}); (\frac {85}{1000}); b). Nêu tử số và mẫu số của phân số trên Câu 2: Trang 4 - sgk toán lớp 5 Viết các thương dưới dạng phân số: 3 : 5; 75 : 100; 9 : 17 Câu 3: Sgk toán lớp 5 - Trang 4 Viết các số tự nhiên dưới dạng phân số có mẫu số là 1: 32; 105; 1000. Câu 4: Sgk toán lớp 5 - Trang 4 Viết số thích hợp vào chỗ trống "]}

数据字段

数据字段包括:

  • id: 文本爬取实例的ID。
  • url: 爬取页面的URL路径。
  • title: 爬取页面的标题。
  • contents: 文本语料列表。

数据集创建

策划理由

该数据集基于开发能够推理和解决小学数学问题的模型,以及在越南小学环境中提供数学知识。

源数据

数据从tech12h.com爬取,选择了1至5年级的数据,包括学生的课程和练习以及解答。

使用数据的注意事项

数据集的社会影响

我们相信,寻找数据源的努力将为未来的人工智能模型提供发展机会,并具有更好的推理能力。

讨论偏见

其他已知限制

当前数据未经过太好的清洗,存在许多不完整的数据样本,包括图像和一些后处理标签。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作