梅州市梅江区应急管理局对生产经营单位转让安全生产证信息|安全生产监管数据集|行政管理数据集
收藏万博荟电商业务用户行为日志数据
该数据集合为万博荟电商平台运营过程中用户行为日志等相关操作信息数据,主要包括访问时间、时区、客户端ip地址、请求时间、连接序列号、请求状态、用户浏览器其他信息、来源页面、用户ID、当前页面地址、页面标题、商品ID、来源网站、入口页面、事件类别。该数据用于运营部门对用户的需求分析,支撑业务用户流量域数据分析,商品推荐算法用户喜好捕捉,应用板块点击情况分析等。
广东省数据知识产权存证登记平台 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
China License Plate Dataset
该数据集包含从互联网搜索、手机拍摄或车载记录仪捕获的多种真实场景下的车牌图像。数据集涵盖了不同拍摄角度、时间、分辨率和背景条件,包括多种车辆类型如卡车、轿车、警车和新能源车辆。新能源车辆车牌有八个字母,其他车辆车牌有七个字母,允许部分遮挡的车牌。所有图像均手动标注了边界框和车牌字母。数据集包含来自中国大陆31个省份的1200张车牌图像。
github 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
CFBenchmark
CFBenchmark是一个专为评估大型语言模型在中文金融助理领域性能而设计的数据集。由同济大学和上海人工智能实验室联合创建,该数据集包含3917个金融文本,覆盖金融识别、分类和生成三大方面,共计八个任务。数据集内容丰富,包括金融新闻和研究报告,文本长度从50字到超过1800字不等,旨在全面测试模型在金融文本处理中的基本能力。创建过程中,专业研究人员对文本进行了严格的筛选和标注,确保数据质量。CFBenchmark的应用领域广泛,主要用于提升金融决策的自动化和智能化水平,解决金融文本处理中的关键问题。
arXiv 收录