Brown Corpus|语言学数据集|英语语料库数据集
收藏
- Brown Corpus首次发表,由布朗大学的W.N. Francis和H. Kucera创建,成为第一个大规模的英语语料库。
- Brown Corpus正式发布,包含100万词的文本,涵盖500篇不同主题和风格的文本,为语言学研究提供了重要资源。
- Brown Corpus被广泛应用于自然语言处理和计算语言学领域,成为许多语言模型和算法的基础。
- Brown Corpus的扩展版本LOB Corpus(Lancaster-Oslo/Bergen Corpus)发布,包含100万词的英国英语文本,进一步丰富了语料库资源。
- Brown Corpus及其扩展版本在语言学和计算语言学领域的应用达到高峰,成为标准参考数据集。
- 随着新技术的出现,Brown Corpus逐渐被更大规模和多样化的语料库所取代,但其历史地位和影响力依然显著。
- 1Brown Corpus: A Standard Corpus of Present-Day Edited American English, for Use with Digital ComputersBrown University · 1964年
- 2The Brown Corpus of American English Texts: Specifications and ProceduresBrown University · 1967年
- 3The Influence of the Brown Corpus on Natural Language ProcessingAssociation for Computational Linguistics · 2014年
- 4A Comparative Study of the Brown Corpus and the Lancaster-Oslo/Bergen CorpusUniversity of Oslo · 2009年
- 5The Role of the Brown Corpus in Modern NLP ResearchUniversity of Cambridge · 2020年
农业农作物生长全周期数据集
农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。
浙江大数据交易服务平台 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录