Hachidaishu part of speech dataset
收藏NIAID Data Ecosystem2026-03-13 收录
下载链接:
https://zenodo.org/record/4835805
下载链接
链接失效反馈官方服务:
资源简介:
Hachidaishu part-of-speech dataset
This dataset contains the part-of-speech information of the Imperial Anthology of Japanese Poetry and the Hachidaishu.
Data offset
Example: #1 Kokinshu
10001 年/名/とし の/格助/の 内/名/うち に/格助/に 春/名/はる は/係助/は き/カ変-用:来:く/き に/完-用:ぬ:ぬ/に けり/過-終:けり:けり/けり 一とせ/名/ひととせ を/*助/を こそ/名/こぞ と/格助/と や/係助/や いは/ハ四-未:言ふ:いふ/いは ん/推-終体:む:む/む ことし/名/ことし と/格助/と や/係助/や いは/ハ四-未:言ふ:いふ/いは ん/推-終体:む:む/む
A line a poem: tokens are separated by spaces; and a token consists of pos elements separated by slashes.
1st column "10001" contains two elements: the first digit is an anthology ID and the rest is a poem ID; the anthology ID: 1..Kokinshu, 2..Gosenshu, 3..Shuishu, 4..Goshuishu, 5..Kin'yoshu, 6..Shikashu, 7..Senzaishu, and 8..Shinkokinshu.
The poem ID is the same as in the database "Nijuichidaishu."
2nd column and the followings are the information of each token.
In case of noun and particle, such as tokens not having conjugations: text/POS/reading.
In case of verb, adjectives, such as tokens having conjugations: text/POS:lemma-kanji:lemma-reading/reading.
八代集(Hachidaishu)词性标注数据集
本数据集涵盖日本皇家诗歌选集与八代集的词性标注信息。
### 数据格式说明
示例:#1 古今和歌集(Kokinshu)
10001 年/名/とし の/格助/の 内/名/うち に/格助/に 春/名/はる は/係助/は き/カ変-用:来:く/き に/完-用:ぬ:ぬ/に けり/過-終:けり:けり/けり 一とせ/名/ひととせ を/*助/を こそ/名/こぞ と/格助/と や/係助/や いは/ハ四-未:言ふ:いふ/いは ん/推-終体:む:む/む ことし/名/ことし と/格助/と や/係助/や いは/ハ四-未:言ふ:いふ/いは ん/推-終体:む:む/む
每一行对应一首诗歌:Token(Token)以空格分隔,每个Token由斜杠分隔的词性元素组成。
1. 第一列「10001」包含两部分信息:首位数字为选集ID,剩余字符为诗歌ID。选集ID对应关系如下:1对应《古今和歌集》(Kokinshu),2对应《后撰和歌集》(Gosenshu),3对应《拾遗和歌集》(Shuishu),4对应《后拾遗和歌集》(Goshuishu),5对应《金叶和歌集》(Kin'yoshu),6对应《新敕撰和歌集》(Shikashu),7对应《千载和歌集》(Senzaishu),8对应《新古今和歌集》(Shinkokinshu)。
2. 诗歌ID与「二十二代集(Nijuichidaishu)」数据库中的ID一致。
3. 第二列及后续各列为每个Token的标注信息。
4. 对于无词形变化的词性(如名词、助词),标注格式为:文本/词性/读音。
5. 对于存在词形变化的词性(如动词、形容词),标注格式为:文本/词性:原形汉字:原形读音/读音。
创建时间:
2022-02-21



