antoinelb7/alloprof
收藏Hugging Face2023-03-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/antoinelb7/alloprof
下载链接
链接失效反馈官方服务:
资源简介:
Alloprof数据集是一个法语的教育问答数据集,由加拿大魁北克的AlloProf组织提供。该数据集包含了小学和中学所有科目的问答数据,原始数据分为问题和参考页面两部分,分别存储在不同的JSON文件中。数据集可以通过提供的脚本解析和结构化,生成一个包含多个列的CSV文件,其中包括文档ID、URL、文本内容、语言、用户ID、图像链接、相关文档ID、是否为问题、相关科目和年级等信息。
Alloprof数据集是一个法语的教育问答数据集,由加拿大魁北克的AlloProf组织提供。该数据集包含了小学和中学所有科目的问答数据,原始数据分为问题和参考页面两部分,分别存储在不同的JSON文件中。数据集可以通过提供的脚本解析和结构化,生成一个包含多个列的CSV文件,其中包括文档ID、URL、文本内容、语言、用户ID、图像链接、相关文档ID、是否为问题、相关科目和年级等信息。
提供机构:
antoinelb7
原始信息汇总
数据集概述
基本信息
- 名称: Alloprof dataset
- 许可证: MIT
- 任务类别:
- Question-Answering
- Text-Retrieval
- 语言: French (fr)
- 标签: Education
- 大小: 10K<n<100K
数据来源
- 提供者: AlloProf, an organization in Quebec, Canada, offering resources and a help forum curated by teachers for students on all subjects taught in primary and secondary school.
数据结构
- 问题数据:
data/questions/categories.json: subjects and their corresponding iddata/questions/comments.json: explanation (answer) datadata/questions/discussions.json: question datadata/questions/grades.json: grades and their corresponding iddata/questions/roles.json: information about the user type for each user id
- 参考页面数据:
data/pages/page-content-en.json: data for the reference pages in Englishdata/pages/page-content-fr.json: data for the reference pages in French
数据处理
- 解析脚本:
scripts/parse_data.py - 输出文件:
data/alloprof.csv - 文件结构:
id(str)url(str)text(str)language(str)user(int)images(str)relevant(str)is_query(bool)subject(str)grade(str)possible(str)
附加工具
- 图像下载脚本:
scripts/download_images.py
引用信息
- 论文: Alloprof: a new French question-answer education dataset and its use in an information retrieval case study
- DOI: 10.48550/ARXIV.2302.07738
- 作者: Antoine Lefebvre-Brossard, Stephane Gazaille, Michel C. Desmarais
- 年份: 2023
- 版权: Creative Commons Attribution Non Commercial Share Alike 4.0 International



