COCA (Corpus of Contemporary American English)|英语语料库数据集|语言研究数据集
收藏
- COCA(Corpus of Contemporary American English)由Mark Davies教授首次提出构想,旨在创建一个全面反映当代美国英语使用情况的语料库。
- COCA正式发布,包含超过4.5亿词的文本,涵盖了从1990年至今的多种文体,如口语、小说、杂志、报纸和学术文章。
- COCA进行了首次大规模更新,增加了新的文本数据,使其总词量超过5.2亿,进一步丰富了语料库的内容和多样性。
- COCA引入了在线查询工具,用户可以通过网络平台直接访问和分析语料库,极大地提升了其使用便捷性和研究价值。
- COCA再次更新,增加了近几年的文本数据,确保语料库能够持续反映当代美国英语的最新变化和发展趋势。
GEO (Gene Expression Omnibus)
GEO (Gene Expression Omnibus) is a public functional genomics data repository supporting MIAME-compliant data submissions. There are also tools provided to help users query and download experiments and curated gene expression profiles.
OPEN DATA NETWORK 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
CCNC
CCNC是一个包含365万姓名样本的大型中文姓名语料库,数据来源于姓名大全和中文人名语料库,经过处理和注音,用于中文姓名研究和实体识别。
github 收录
LPW
Labeled Pedestrian in the Wild (LPW) 是一个行人检测数据集,其中包含三个不同场景中的 2,731 名行人,每个带注释的身份由 2 到 4 个摄像头捕获。 LPW 具有 7,694 个轨迹的显着规模,包含超过 590,000 张图像以及轨迹的清洁度。它在三个方面区别于现有数据集:大规模清洁、自动检测边界框以及更拥挤的场景和更大的年龄跨度。该数据集提供了更现实和更具挑战性的基准,有助于进一步探索更强大的算法。
OpenDataLab 收录
California Housing Dataset
California Housing数据集是一个在机器学习社区中广泛使用的数据集,特别适用于回归任务。它包含了加利福尼亚州不同地区的各种住房属性的信息。
github 收录