five

Chinese Treebank|自然语言处理数据集|中文语言资源数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
自然语言处理
中文语言资源
下载链接:
https://opendatalab.org.cn/OpenDataLab/Chinese_Treebank
下载链接
链接失效反馈
资源简介:
中国树库项目始于宾夕法尼亚大学 IRCS。后来,它搬到了科罗拉多大学博尔德分校的 CLEAR 实验室。该项目还有两个旧网站不再积极维护,一个在 PENN,另一个在 CU。那里的信息非常过时。 中国树库的开发得到了 DOD、NSF 和 DARPA TIDES、GALE 和 BOLT 计划的支持。 Chinese Treebank 的最新版本是 CTB 9.0,此版本涵盖的类型包括新闻专线、杂志文章、广播新闻、广播对话、新闻组和博客、论坛。该语料库目前正在扩展中,未来版本中将包含更多类型。 通过中国命题库项目,已将注释的语义层添加到中国树库中。中国命题银行的最新版本是 CPB 3.0,它也是通过语言数据联盟发布的。
提供机构:
OpenDataLab
创建时间:
2022-08-16
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Cultural Dimensions Dataset

该数据集包含了霍夫斯泰德文化维度理论(Hofstede's Cultural Dimensions Theory)的相关数据,涵盖了多个国家和地区的文化维度评分,如权力距离、个人主义与集体主义、男性化与女性化、不确定性规避、长期取向与短期取向等。这些数据有助于研究不同文化背景下的行为模式和价值观。

geerthofstede.com 收录