five

Ingrian Corpus (UHLCS)

收藏
Mendeley Data2024-01-31 更新2024-06-27 收录
下载链接:
https://etsin.fairdata.fi/dataset/108ab463-e801-4383-b9cf-1af2ec43c3bf
下载链接
链接失效反馈
官方服务:
资源简介:
The corpus is available in Kielipankki - the Language Bank of Finland (puhti.csc.fi, access rights instructions: http://www.kielipankki.fi/access). Location: /appl/data/kielipankki/mrc-uhlcs/multilingual-language-archive/uralic-lgs/finno-ugric-lgs/baltic-finnic-lgs/ingrian 1. The Ingrian text corpus on Heva dialect consists of samples collected by Arvo Laanest. The texts were published in A. Laanest (1966). Isuri murdetekste : Izhorskie dialektnye teksty. Tallinn. 242 pp. Isuri keel. uurimuste seeria, 2. The corpus consists of chapters 1-18, 28, 32, 37-38, 42-44) (in this file, the questions to the informants are not included in the text), and chapters 1-44 (in this file, the questions to the informants are included in the text). The corpus consists of three files: 1) the original text, 2) the same texts tagged morphologically, 3) and translated into English. Also the encoded wordlist is translated into Eglish. The original data is running text, the morphologically analysed data are in the word-per-line format, and the English translation is running text. 2. The Ingrian text corpus of Laukaansuu dialect consists of samples collected by R.E. Nirvi. The texts were published in Virtaranta, Pertti (1967). Lähisukukielten lukemisto. Suomalaisen Kirjallisuuden Seuran Toimituksia 280. Suomalaisen Kirjallisuuden Seura. Helsinki. Pp. 158-165. The corpus consists of two files: 1) the original text, and 2) the same texts tagged morphologically, The morphologically tagged word forms are translated into English. 3. The Ingrian text corpus of Soikkola dialect consists of samples collected by Pertti Virtaranta. The texts were published in Virtaranta, Pertti (1967). Lähisukukielten lukemisto. Suomalaisen Kirjallisuuden Seuran Toimituksia 280. Suomalaisen Kirjallisuuden Seura. Helsinki. Pp. 138-150. The corpus consists of two files: 1) the original text, and 2) the same texts tagged morphologically, The morphologically tagged word forms are translated into English. The Ingrian Corpus is a part of the UHLCS corpus collection. UHLCS has many different IPR holders. Should you have any questions regarding the collection, please contact Pirkko Suihkonen (suihkonen.pirkko@gmail.com). License details: http://urn.fi/urn:nbn:fi:lb-20150304116 Detailed information: http://urn.fi/urn:nbn:fi:lb-2014060213 http://www.ling.helsinki.fi/uhlcs/metadata/corpus-metadata/uralic-lgs/baltic-finnic-lgs/ingrian/ The purpose of the resource use must be outlined in a research plan. log 25.11.2018 link http://islrn.org/resources/497-387-508-181-8 removed

该语料库可从芬兰语言银行(Kielipankki,puhti.csc.fi,访问权限说明:http://www.kielipankki.fi/access)获取,存储路径为:/appl/data/kielipankki/mrc-uhlcs/multilingual-language-archive/uralic-lgs/finno-ugric-lgs/baltic-finnic-lgs/ingrian。 1. 赫瓦(Heva)方言英格里亚语语料库(Ingrian Corpus):文本样本由阿尔沃·拉内斯特(Arvo Laanest)采集,相关文本发表于A. Laanest(1966)的《Isuri murdetekste : Izhorskie dialektnye teksty》(《伊佐拉方言文本》),塔林,242页,《伊佐拉语研究丛书》(Isuri keel. uurimuste seeria)第2卷。该语料库包含两类文本章节:其一为第1-18、28、32、37-38、42-44章(本文件未包含对受访人的提问内容),其二为第1-44章(本文件包含对受访人的提问内容)。本语料库包含三个文件:1)原始文本;2)经形态标注的同名文本;3)英译文本。此外,编码词汇表也已译为英文。原始数据为连续文本,形态分析数据采用逐词一行格式,英译文本同样为连续文本。 2. 劳卡恩苏(Laukaansuu)方言英格里亚语语料库:文本样本由R.E. 尼尔维(R.E. Nirvi)采集,相关文本发表于Virtaranta, Pertti(1967)的《Lähisukukielten lukemisto》(《近亲属语言读本》),载于《芬兰文学学会论丛》(Suomalaisen Kirjallisuuden Seuran Toimituksia)第280辑,芬兰文学学会,赫尔辛基,第158-165页。该语料库包含两个文件:1)原始文本;2)经形态标注的同名文本,其中形态标注的词形已译为英文。 3. 索伊科拉(Soikkola)方言英格里亚语语料库:文本样本由佩尔蒂·维塔兰塔(Pertti Virtaranta)采集,相关文本发表于Virtaranta, Pertti(1967)的《Lähisukukielten lukemisto》(《近亲属语言读本》),载于《芬兰文学学会论丛》第280辑,芬兰文学学会,赫尔辛基,第138-150页。该语料库包含两个文件:1)原始文本;2)经形态标注的同名文本,其中形态标注的词形已译为英文。 本英格里亚语语料库是UHLCS语料库合集的组成部分。UHLCS拥有多位不同的知识产权持有人。若您对该语料合集有任何疑问,请联系皮尔科·苏伊赫科宁(Pirkko Suihkonen),邮箱:suihkonen.pirkko@gmail.com。许可详情:http://urn.fi/urn:nbn:fi:lb-20150304116。详细信息:http://urn.fi/urn:nbn:fi:lb-2014060213、http://www.ling.helsinki.fi/uhlcs/metadata/corpus-metadata/uralic-lgs/baltic-finnic-lgs/ingrian/。使用该资源需在研究计划中说明用途。2018年11月25日日志:已移除链接http://islrn.org/resources/497-387-508-181-8。
创建时间:
2024-01-31
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作