【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
PKU-SEGPOS
收藏OpenDataLab2026-05-10 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/PKU-SEGPOS
下载链接
链接失效反馈官方服务:
资源简介:
北京大学提供的词性标注数据集,用于标注人民日报语料库。
从2000年1月和12月1日到15,2000的语料库被用作训练集,从12月16日到2000年12月23日的语料库被用作开发集,从12月24日到2000年12月31日的语料库被用作训练集。作为测试集的语料库。
除了使用《现代汉语语法信息词典》中的26个词性标签 (名词n,时间词t,位置词s,位置词f,数字m,量词q,区分词b,代词r,动词v,形容词a,状态词z,副词d、介词p、连词c、粒子u、语气词y、感叹词e、拟声词o、成语i、成语l、缩写j、前成分h、后成分k、语素g、非语素x、标点符号w) 、增加了以下三种标记:
① 专有名词的分类标记,即人名nr,地名ns,组织名称nt,其他专有名词nz;
② 语素的子类标记,即名词语素Ng、动词语素Vg、形容词语素Ag、时态语素Tg、次语素Dg等;
③ 动词和形容词的子类标记,即名词动词vn (具有名词特征的动词),名词形容词an (具有名词特征的形容词),副词vd (具有副词特征的动词),副词ad (具有副词特征的形容词)。
总共大约40个左右。
A part-of-speech tagging dataset developed by Peking University for annotating the People's Daily corpus.
The corpus from January 2000 as well as that from December 1 to 15, 2000 serves as the training set; the corpus from December 16 to 23, 2000 is used as the development set; and the corpus from December 24 to 31, 2000 acts as the test set.
Besides the 26 part-of-speech tags specified in the *Modern Chinese Grammar Information Dictionary* (noun (n), temporal word (t), locative word (s), localizer (f), numeral (m), measure word (q), distinguishing word (b), pronoun (r), verb (v), adjective (a), stative word (z), adverb (d), preposition (p), conjunction (c), particle (u), modal particle (y), interjection (e), onomatopoeia (o), idiom (i), idiomatic phrase (l), abbreviation (j), prefix (h), suffix (k), morpheme (g), non-morpheme (x), punctuation mark (w)), three additional categories of tags are introduced:
1. Classified proper noun tags: personal name (nr), place name (ns), organization name (nt), and other proper nouns (nz);
2. Subtype tags for morphemes: nominal morpheme (Ng), verbal morpheme (Vg), adjectival morpheme (Ag), tense morpheme (Tg), secondary morpheme (Dg), etc.;
3. Subtype tags for verbs and adjectives: nominal verb (vn, verbs with nominal features), nominal adjective (an, adjectives with nominal features), adverbial verb (vd, verbs with adverbial features), adverbial adjective (ad, adjectives with adverbial features).
In total, there are approximately 40 tags in this dataset.
提供机构:
OpenDataLab
创建时间:
2023-05-15
搜集汇总
数据集介绍

背景与挑战
背景概述
PKU-SEGPOS是北京大学提供的词性标注数据集,专门用于标注人民日报语料库,语料来自2000年,并划分为训练集、开发集和测试集。该数据集扩展了标准词性标签,包括专有名词、语素和动词形容词的子类标记,总计约40个标签,适用于中文自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



