BEAST
收藏MNBVC
MNBVC数据集是一个超大规模的中文语料集,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。
github 收录
Nikkei 225
Nikkei 225,又称日经225指数,是日本东京证券交易所的一个重要股票市场指数,由225家日本大型上市公司组成。该指数是衡量日本股市表现的重要指标,涵盖了从制造业到服务业的多个行业。
indexes.nikkei.co.jp 收录
福建省龙岩市长汀县2002年森林分类经营图
该数据为福建省龙岩市长汀县2002年森林分类经营图,数据为矢量数据,包括行政单元、行政代码、类型、类型代码、标准类型、标准类型代码等属性字段,该数据为森林资源清查、规划设计等提供数据支撑服务。
国家林业和草原科学数据中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
COCA (Corpus of Contemporary American English)
COCA是一个包含超过5.2亿词的英语语料库,涵盖了从1990年至今的文本。它包括口语、小说、流行杂志、报纸和学术文章五种文体,旨在反映当代美国英语的使用情况。
www.english-corpora.org 收录
