Penn Treebank|自然语言处理数据集|词性标注数据集
收藏
- Penn Treebank项目正式启动,由宾夕法尼亚大学计算机与信息科学系发起,旨在创建一个大规模的英语语料库,用于自然语言处理研究。
- Penn Treebank发布了第一个版本,包含约450万个单词的标注文本,标志着该数据集的首次公开发布。
- Penn Treebank的第二版发布,增加了更多的标注数据和改进的标注规范,进一步提升了数据集的质量和应用价值。
- Penn Treebank被广泛应用于自然语言处理领域的研究,特别是在句法分析和语言模型构建方面,成为该领域的重要基准数据集。
- 随着深度学习技术的发展,Penn Treebank继续被用作训练和评估新算法的重要资源,特别是在神经网络语言模型和句法分析任务中。
中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国近海地形数据集(渤海,黄海,东海,南海)
本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。
地球大数据科学工程 收录
ApolloScape Dataset
ApolloScape数据集是用于自动驾驶研究的开源数据集,包括轨迹预测、3D激光雷达物体检测与跟踪、场景解析、车道分割、自定位、3D车辆实例、立体视觉和修复等多个方面,旨在促进自动驾驶技术的创新和发展。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
TCIA: The Cancer Imaging Archive
TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。
www.cancerimagingarchive.net 收录