VerbNet|自然语言处理数据集|动词语义分析数据集
收藏
- VerbNet首次发表,由Levin和Rappaport Hovav提出,作为动词分类和语义分析的框架。
- VerbNet 1.0版本发布,包含约600个动词类,标志着该数据集的初步成型。
- VerbNet 2.0版本发布,动词类数量增加至约1000个,引入了更多的语义和句法信息。
- VerbNet 2.1版本发布,进一步完善了动词分类和语义标注,增强了数据集的实用性。
- VerbNet 3.0版本发布,动词类数量扩展至约3000个,引入了更多的跨语言和跨领域的应用。
- VerbNet 3.2版本发布,进一步优化了动词分类和语义标注,提升了数据集的准确性和一致性。
- VerbNet 3.3版本发布,引入了更多的机器学习方法,增强了数据集在自然语言处理中的应用。
Alexa Domains
该数据集由前 100 万个网站的 URL 组成。 域名使用 Alexa 流量排名进行排名 是使用浏览行为的组合来确定的 网站上的用户数、唯一身份访问者的数量和网页浏览量。更详细地说,唯一身份访问者是 在给定日期访问网站的唯一用户数, 和 pageviews 是用户 URL 请求的总数 网站。但是,对同一网站的多个请求 在同一天被计为一次综合浏览量。网站 独立访问者和综合浏览量的最高组合 排名最高
OpenDataLab 收录
ChemBL
ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。
www.ebi.ac.uk 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录