five

N-gram dataset of Xu Xiu Si Ku Quan Shu (續修四庫全書)

收藏
NIAID Data Ecosystem2026-03-11 收录
下载链接:
https://zenodo.org/record/2586939
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset contains the N-grams (1-3) collected from Xu Xiu Si Ku Quan Shu (續修四庫全書). The dataset comprises of the following resources: xuxiu_1.7z Unigram dataset in tab seperated format (one file per book, each row contains the N-gram and its count) xuxiu_2.7z Bigram dataset in tab seperated format (one file per book, each row contains the N-gram and its count) xuxiu_3.7z Trigram dataset in tab seperated format (one file per book, each row contains the N-gram and its count) xuxiu_metadata.xlsx Metadata of each book   Dieses Datenset enthält die im Xu Xiu Si Ku Quan Shu (續修四庫全書) enthaltenen N-Gramme (1-3).   Das Datenset besteht aus den folgenden Dateien: xuxiu_1.7z Monogramm-Datenset im .txt Dateiformat mit Tabstopp als Trennzeichen (jede Datei enthält ein Buch, jede Zeile ein N-Gramm mit der Anzahl der Vorkommnisse im Text) xuxiu_2.7z Bigramm-Datenset im .txt Dateiformat mit Tabstopp als Trennzeichen (jede Datei enthält ein Buch, jede Zeile ein N-Gramm mit der Anzahl der Vorkommnisse im Text) xuxiu_3.7z Trigramm-Datenset im .txt Dateiformat mit Tabstopp als Trennzeichen (jede Datei enthält ein Buch, jede Zeile ein N-Gramm mit der Anzahl der Vorkommnisse im Text) xuxiu_metata.xlsx Metadaten der enthaltenen Bücher   《續修四庫全書》n元語法統計資料 (N-gram Dataset) 以下是檔案簡說: xuxiu_1.7z 《續修四庫全書》一元分詞(Unigram)的統計資料 (每本書一個檔案,以tab作欄區分,每一行紀錄該 N-gram 在書中出現的次數) xuxiu_2.7z 《續修四庫全書》二元分詞(Bigram)的統計資料 (每本書一個檔案,以tab作欄區分,每一行紀錄該 N-gram 在書中出現的次數) xuxiu_3.7z 《續修四庫全書》三元分詞(Trigram)的統計資料 (每本書一個檔案,以tab作欄區分,每一行紀錄該 N-gram 在書中出現的次數) xuxiu_metadata.xlsx 紀錄每本書的基本Metadata
创建时间:
2020-01-24
二维码
社区交流群
二维码
科研交流群
商业服务