five

NETEMVocabulary|英语考试数据集|词汇分析数据集

收藏
github2024-05-20 更新2024-05-31 收录
英语考试
词汇分析
下载链接:
https://github.com/exam-data/NETEMVocabulary
下载链接
链接失效反馈
资源简介:
《2024年全国硕士研究生招生考试英语(一)考试大纲词汇表》中要求掌握的词汇共5530个,根据四六级、考研英语、专四专八约200套试卷文本,按照试卷文本中出现的词频对词汇表进行排序。排序使用了词形还原策略,前2444个单词出现40次以上,即平均每做5套试卷就能遇到一次的这些单词即为真正的高频词汇。释义经过了人工初步校对,每个单词有其他拼写的一并列出,以保证原始数据的准确性。

The '2024 National Postgraduate Entrance Examination English (I) Exam Outline Vocabulary List' comprises a total of 5,530 words that candidates are required to master. This list has been sorted based on the frequency of word occurrences in approximately 200 sets of examination papers from CET-4, CET-6, postgraduate English, TEM-4, and TEM-8. The sorting process employed a lemmatization strategy, identifying the top 2,444 words that appear more than 40 times, which means these words are encountered once every five sets of papers on average, marking them as truly high-frequency vocabulary. The definitions have undergone preliminary manual verification, and alternative spellings for each word are also listed to ensure the accuracy of the original data.
创建时间:
2022-10-03
原始信息汇总

考研词汇词频排序数据集概述

数据集描述

  • 词汇来源:《2024年全国硕士研究生招生考试英语(一)考试大纲词汇表》,共包含5530个词汇。
  • 词频统计:基于四六级、考研英语、专四专八约200套试卷文本,对词汇表进行词频排序。
  • 排序方法:采用词形还原策略,与实际试卷呈现略有差异。
  • 高频词汇:前2444个单词出现40次以上,平均每做5套试卷能遇到一次。
  • 数据准确性:释义经过人工初步校对,确保准确性。对于有其他拼写的单词,一并列出。

数据存储

  • 数据文件netem_full_list.json 存储所有数据,并已转换成 netem_full_list.sql 文件。

数据集使用

AI搜集汇总
数据集介绍
main_image_url
构建方式
NETEMVocabulary数据集的构建基于《2024年全国硕士研究生招生考试英语(一)考试大纲词汇表》,涵盖了5530个词汇。通过分析四六级、考研英语、专四专八约200套试卷文本,采用词形还原策略,对词汇表进行词频排序。前2444个单词出现40次以上,被定义为高频词汇。释义经过人工初步校对,确保准确性,并列出其他拼写形式以保证数据完整性。
特点
NETEMVocabulary数据集的显著特点在于其高频词汇的精确筛选和词形还原策略的应用,确保了词汇的实际应用频率与考试需求的高度匹配。此外,数据集包含了多种拼写形式的词汇,增强了其全面性和实用性。人工校对的释义进一步提升了数据的质量,减轻了学习者的记忆负担。
使用方法
用户可通过访问[netem_full_list.json](https://github.com/exam-data/NETEMVocabulary/blob/master/netem_full_list.json)获取完整数据集,或下载[sql文件](https://github.com/exam-data/NETEMVocabulary/blob/master/netem_full_list.sql)进行数据库导入。此外,数据集提供了PDF版本供直接下载。对于希望自行生成数据的用户,可参阅[生成文档](https://github.com/exam-data/scripts-docs/blob/main/docs/how-to-generate-docs.md)。
背景与挑战
背景概述
NETEMVocabulary数据集是由一群专注于考研英语教育的研究人员和机构创建的,旨在为考生提供一个基于词频排序的词汇学习工具。该数据集的核心研究问题是如何有效地识别和排序考研英语中的高频词汇,以帮助考生更高效地准备考试。通过对2024年全国硕士研究生招生考试英语(一)考试大纲词汇表中的5530个词汇进行词频统计,研究人员从约200套试卷文本中提取数据,采用词形还原策略对词汇进行排序。这一研究不仅为考生提供了科学的学习依据,也对教育技术领域中的词汇教学方法产生了积极影响。
当前挑战
NETEMVocabulary数据集在构建过程中面临多项挑战。首先,词频统计的准确性依赖于大量试卷文本的收集和处理,这要求数据处理的精确性和效率。其次,词形还原策略的应用虽然提高了数据的一致性,但也可能导致与实际试卷呈现的差异,影响学习效果的评估。此外,释义的准确性需要人工校对,增加了数据集构建的时间和成本。最后,考虑到考纲中单词的多种拼写形式,确保原始数据的完整性和准确性也是一个重要挑战。
常用场景
经典使用场景
在考研英语备考过程中,NETEMVocabulary数据集被广泛应用于词汇学习的优化。通过该数据集,考生可以依据词频排序,优先掌握那些在历年真题中出现频率较高的词汇,从而提高学习效率。这种基于数据的学习策略,使得考生能够更有针对性地进行词汇记忆,避免了盲目背诵大量低频词汇的无效劳动。
实际应用
NETEMVocabulary数据集在实际应用中,被广泛应用于各类考研英语培训课程和自学教材中。培训机构利用该数据集设计更有效的词汇教学方案,帮助考生在有限的时间内掌握最重要的词汇。此外,自学考生也可以通过该数据集自行制定学习计划,确保学习资源的最优配置。这种数据驱动的学习方法,已经在考研英语备考中取得了显著的实际效果。
衍生相关工作
NETEMVocabulary数据集的发布,激发了相关领域的研究兴趣,衍生出了一系列基于词频分析的词汇学习工具和方法。例如,有研究者利用该数据集开发了智能词汇学习应用,通过移动设备提供个性化的词汇学习体验。此外,教育技术领域的学者也开始探索如何将词频分析技术应用于其他语言考试的词汇教学中,进一步扩展了该数据集的应用范围和影响力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

IR-500K

IR-500K是一个大型红外数据集,包含500,000张红外图像,涵盖了各种场景和物体在不同环境条件下的图像。

github 收录

MIMIC-IV数据库

MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录