five

NETEMVocabulary|英语考试数据集|词汇分析数据集

收藏
github2024-05-20 更新2024-05-31 收录
英语考试
词汇分析
下载链接:
https://github.com/exam-data/NETEMVocabulary
下载链接
链接失效反馈
资源简介:
《2024年全国硕士研究生招生考试英语(一)考试大纲词汇表》中要求掌握的词汇共5530个,根据四六级、考研英语、专四专八约200套试卷文本,按照试卷文本中出现的词频对词汇表进行排序。排序使用了词形还原策略,前2444个单词出现40次以上,即平均每做5套试卷就能遇到一次的这些单词即为真正的高频词汇。释义经过了人工初步校对,每个单词有其他拼写的一并列出,以保证原始数据的准确性。

The '2024 National Postgraduate Entrance Examination English (I) Exam Outline Vocabulary List' comprises a total of 5,530 words that candidates are required to master. This list has been sorted based on the frequency of word occurrences in approximately 200 sets of examination papers from CET-4, CET-6, postgraduate English, TEM-4, and TEM-8. The sorting process employed a lemmatization strategy, identifying the top 2,444 words that appear more than 40 times, which means these words are encountered once every five sets of papers on average, marking them as truly high-frequency vocabulary. The definitions have undergone preliminary manual verification, and alternative spellings for each word are also listed to ensure the accuracy of the original data.
创建时间:
2022-10-03
原始信息汇总

考研词汇词频排序数据集概述

数据集描述

  • 词汇来源:《2024年全国硕士研究生招生考试英语(一)考试大纲词汇表》,共包含5530个词汇。
  • 词频统计:基于四六级、考研英语、专四专八约200套试卷文本,对词汇表进行词频排序。
  • 排序方法:采用词形还原策略,与实际试卷呈现略有差异。
  • 高频词汇:前2444个单词出现40次以上,平均每做5套试卷能遇到一次。
  • 数据准确性:释义经过人工初步校对,确保准确性。对于有其他拼写的单词,一并列出。

数据存储

  • 数据文件netem_full_list.json 存储所有数据,并已转换成 netem_full_list.sql 文件。

数据集使用

AI搜集汇总
数据集介绍
main_image_url
构建方式
NETEMVocabulary数据集的构建基于《2024年全国硕士研究生招生考试英语(一)考试大纲词汇表》,涵盖了5530个词汇。通过分析四六级、考研英语、专四专八约200套试卷文本,采用词形还原策略,对词汇表进行词频排序。前2444个单词出现40次以上,被定义为高频词汇。释义经过人工初步校对,确保准确性,并列出其他拼写形式以保证数据完整性。
特点
NETEMVocabulary数据集的显著特点在于其高频词汇的精确筛选和词形还原策略的应用,确保了词汇的实际应用频率与考试需求的高度匹配。此外,数据集包含了多种拼写形式的词汇,增强了其全面性和实用性。人工校对的释义进一步提升了数据的质量,减轻了学习者的记忆负担。
使用方法
用户可通过访问[netem_full_list.json](https://github.com/exam-data/NETEMVocabulary/blob/master/netem_full_list.json)获取完整数据集,或下载[sql文件](https://github.com/exam-data/NETEMVocabulary/blob/master/netem_full_list.sql)进行数据库导入。此外,数据集提供了PDF版本供直接下载。对于希望自行生成数据的用户,可参阅[生成文档](https://github.com/exam-data/scripts-docs/blob/main/docs/how-to-generate-docs.md)。
背景与挑战
背景概述
NETEMVocabulary数据集是由一群专注于考研英语教育的研究人员和机构创建的,旨在为考生提供一个基于词频排序的词汇学习工具。该数据集的核心研究问题是如何有效地识别和排序考研英语中的高频词汇,以帮助考生更高效地准备考试。通过对2024年全国硕士研究生招生考试英语(一)考试大纲词汇表中的5530个词汇进行词频统计,研究人员从约200套试卷文本中提取数据,采用词形还原策略对词汇进行排序。这一研究不仅为考生提供了科学的学习依据,也对教育技术领域中的词汇教学方法产生了积极影响。
当前挑战
NETEMVocabulary数据集在构建过程中面临多项挑战。首先,词频统计的准确性依赖于大量试卷文本的收集和处理,这要求数据处理的精确性和效率。其次,词形还原策略的应用虽然提高了数据的一致性,但也可能导致与实际试卷呈现的差异,影响学习效果的评估。此外,释义的准确性需要人工校对,增加了数据集构建的时间和成本。最后,考虑到考纲中单词的多种拼写形式,确保原始数据的完整性和准确性也是一个重要挑战。
常用场景
经典使用场景
在考研英语备考过程中,NETEMVocabulary数据集被广泛应用于词汇学习的优化。通过该数据集,考生可以依据词频排序,优先掌握那些在历年真题中出现频率较高的词汇,从而提高学习效率。这种基于数据的学习策略,使得考生能够更有针对性地进行词汇记忆,避免了盲目背诵大量低频词汇的无效劳动。
实际应用
NETEMVocabulary数据集在实际应用中,被广泛应用于各类考研英语培训课程和自学教材中。培训机构利用该数据集设计更有效的词汇教学方案,帮助考生在有限的时间内掌握最重要的词汇。此外,自学考生也可以通过该数据集自行制定学习计划,确保学习资源的最优配置。这种数据驱动的学习方法,已经在考研英语备考中取得了显著的实际效果。
衍生相关工作
NETEMVocabulary数据集的发布,激发了相关领域的研究兴趣,衍生出了一系列基于词频分析的词汇学习工具和方法。例如,有研究者利用该数据集开发了智能词汇学习应用,通过移动设备提供个性化的词汇学习体验。此外,教育技术领域的学者也开始探索如何将词频分析技术应用于其他语言考试的词汇教学中,进一步扩展了该数据集的应用范围和影响力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

rule34lol-images-part1

该数据集包含来自rule34.lol图像板的196,000个图像文件的元数据。元数据包括URL、标签、文件信息和点赞数。实际图像文件存储在zip存档中,每个存档包含1000个图像。该数据集是更大集合的一部分,分为Part 1和Part 2。数据集采用CC0许可,允许免费使用、修改和分发,无需署名。

huggingface 收录

中国区域地面气象要素驱动数据集 v2.0(1951-2020)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 70 年(1951~2020 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中,计划于 2025 年上半年发布,从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心 收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据,涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标,适用于太阳能资源评估和气候研究。

www.nrel.gov 收录