five

AES-Dataset|教育评估数据集|作文分析数据集

收藏
github2024-05-17 更新2024-05-31 收录
教育评估
作文分析
下载链接:
https://github.com/declan-haojin/AES-Dataset
下载链接
链接失效反馈
资源简介:
一个包含中国高中生主题指导和相关作文的数据集,数据集中的每篇作文包括编号、标题和评分,存储在`scores.txt`和`/essays`文件夹中。

A dataset containing topic guidance and related essays from Chinese high school students. Each essay in the dataset includes an ID, title, and score, stored in `scores.txt` and the `/essays` folder.
创建时间:
2020-04-08
原始信息汇总

AES-Dataset 概述

数据集内容

  • 主题与内容:包含中国高中收集的主题指导及相关中文作文。
  • 文件结构
    • scores.txt:包含每篇作文的编号、标题及评分。
    • /essays 文件夹:包含编号从 A-0001A-0300 的作文。
  • 作文格式:每篇作文的第一行为标题,后续每行代表一个段落。

注意事项

  • 格式提示:文章的最后一行可能为空。
  • 评分性质:评分具有主观性。

收集者

  • Haojin Li

许可

  • 本数据集根据 MIT 许可证发布,详情见 LICENSE.md 文件。
AI搜集汇总
数据集介绍
main_image_url
构建方式
AES-Dataset数据集的构建基于对中国高中生作文的广泛收集与整理。该数据集包含了主题指导及相关的作文,涵盖了从`A-0001`到`A-0300`的编号。每篇作文的第一行是其标题,后续各行则是作文的段落内容。数据集的组织结构清晰,`scores.txt`文件提供了每篇作文的编号、标题及评分信息。值得注意的是,作文的评分具有主观性,且文章的最后一行可能为空白。
特点
AES-Dataset数据集的显著特点在于其内容的真实性和多样性,源自中国高中生的实际写作,涵盖了丰富的主题和写作风格。每篇作文均附有评分,这为研究作文质量提供了参考依据。此外,数据集的结构设计便于用户快速定位和分析特定作文,适合用于自然语言处理、教育评估等领域的研究。
使用方法
使用AES-Dataset数据集时,用户可以通过`scores.txt`文件获取作文的基本信息,包括编号、标题和评分。作文的正文则存储在`/essays`文件夹中,每篇作文按编号命名,便于检索。用户可以利用这些数据进行作文质量分析、主题分类、评分预测等多种研究。数据集的开源性质也鼓励用户通过提交拉取请求来贡献更多格式化和评分的作文,进一步丰富数据集的内容。
背景与挑战
背景概述
AES-Dataset是由Haojin Li收集并整理的一个中文作文数据集,主要来源于中国高中生。该数据集包含了主题指导和相关的作文,旨在为中文作文评分和分析提供丰富的资源。数据集的创建得到了Dr. Dai的指导,以及Haojin Li的同学、朋友、黄老师和陈老师的支持。AES-Dataset的发布不仅为中文作文的研究提供了新的数据支持,也为教育领域的相关研究提供了宝贵的资源。
当前挑战
AES-Dataset在构建过程中面临的主要挑战包括:一是作文评分的客观性问题,由于评分是主观的,可能存在评分标准不一致的情况;二是数据集的规模和多样性,尽管包含了300篇作文,但如何确保这些作文能够代表更广泛的学生群体仍然是一个挑战;三是数据的质量控制,如如何处理作文中的空白行等问题,这些都需要在数据处理和分析过程中加以考虑。
常用场景
经典使用场景
AES-Dataset在教育领域中被广泛应用于中文作文的自动评分与主题分析。该数据集通过提供高中生作文及其对应的主观评分,为研究者提供了一个标准化的文本分析平台。研究者可以利用这些数据训练自然语言处理模型,以实现对作文内容的自动理解和评分,从而为教育评估提供技术支持。
衍生相关工作
基于AES-Dataset,研究者已开展了多项相关工作,包括中文作文自动评分模型的优化、作文主题分类算法的研究以及写作风格分析等。这些工作不仅推动了自然语言处理技术的发展,也为中文教育领域的智能化提供了理论和技术支持,进一步促进了教育技术的创新与应用。
数据集最近研究
最新研究方向
在教育评估与语言分析领域,AES-Dataset因其包含的中文高中作文及其评分信息,成为研究自动化作文评分(AES)系统的关键资源。该数据集不仅为机器学习模型提供了丰富的语料库,还为探索中文作文的结构、风格与评分标准之间的关系提供了基础。近年来,研究者们利用AES-Dataset进行了一系列前沿研究,旨在开发更加精准和公平的自动化评分模型,这些模型不仅能够模拟人类评分者的判断,还能通过数据驱动的方式揭示评分中的潜在偏差。此外,该数据集的应用也扩展至语言教学与学习分析,为个性化教育提供了新的视角和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

CAP-DATA

CAP-DATA数据集由长安大学交通学院的研究团队创建,包含11,727个交通事故视频,总计超过2.19百万帧。该数据集不仅标注了事故发生的时间窗口,还提供了详细的文本描述,包括事故前的实际情况、事故类别、事故原因和预防建议。数据集的创建旨在通过结合视觉和文本信息,提高交通事故预测的准确性和解释性,从而支持更安全的驾驶决策系统。

arXiv 收录