02_PoS.zip
收藏DataCite Commons2023-02-20 更新2025-04-09 收录
下载链接:
https://hdl.handle.net/21.11113/0000-000F-819C-F
下载链接
链接失效反馈官方服务:
资源简介:
Dieser Ordner enthält die lemmatisierten Texte mit Part-of-Speech-Annotationen. Für die Annotation wurde die Open-Source-Software TreeTagger genutzt, die von Helmut Schmid im TC-Projekt des Instituts für Computerlinguistik der Universität Stuttgart entwickelt wurde. Das Tool sowie Parameter für zahlreiche Sprachen stehen u. a. auf der Webseite des Centrums für Informations- und Sprachverarbeitung der LMU München zur Verfügung: https:// www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ [Letzter Zugriff am 16.01.2023]. Die Dateien wurden auf zehn Subkorpora aufgeteilt, die sich jeweils einem Sprecher und einem historischen Abschnitt zuordnen lassen (Aufteilung am Ende der README-Datei).
本文件夹包含经过词形还原处理且带有词性标注(Part-of-Speech)的文本。本次词性标注采用开源软件TreeTagger,该工具由赫尔穆特·施密特(Helmut Schmid)在斯图加特大学计算机语言学研究所的TC项目中开发完成。该工具及针对多种语言的参数文件可通过慕尼黑大学(LMU München)信息与语言处理中心的官方网站获取:https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ [最后访问日期:2023年1月16日]。本次数据集的文件被划分为10个子语料库,每个子语料库均可对应至一位说话者与一个历史时期,具体划分方式详见README文件末尾。
提供机构:
DARIAH-DE
创建时间:
2023-02-20



