five

Svensk trädbank

收藏
DataCite Commons2026-05-03 更新2025-04-16 收录
下载链接:
https://spraakbanken.gu.se/resurser/sv-treebank
下载链接
链接失效反馈
官方服务:
资源简介:
En svensk trädbank med återanvändning av existerande resurser Den svenska trädbanken är resultatet av ett arbete som har utförts av forskare vid universiteten i Uppsala (Datorlingvistik, Institutionen för lingvistik och filologi) och Växjö (Språkteknologigruppen vid Matematiska och systemtekniska institutionen). Trädbanken är resultatet av en harmonisering av den lingvistiska informationen i två befintliga svenska språkresurser: Talbanken, en korpus med svenskt skriftspråk och transkriberat talspråk från 1970-talet, som är försedd med manuellt utförda syntaktiska analyser enligt en traditionell nordistisk modell (en slags utvidgad fältanalys à la Diderichsen) SUC (Stockholm Umeå Corpus), en morfosyntaktiskt analyserad (försedd med ordklassetiketter och grundformer på alla korpusens ord) balanserad korpus över publicerat svenskt skriftspråk från 1990-talet I korthet har harmoniseringen gått till så att Talbanken försetts med SUC:s ordklassetiketter i en halvautomatisk process, och både Talbanken och SUC har försetts med en frasstrukturversion av Talbankens syntaktiska annotation. Den senare processen har varit helautomatisk, vilket innebär att man kan förvänta sig felaktigheter i den syntaktiska annotationen, särskilt i SUC-korpusen. En preliminär utvärdering av annotationen presenterad vid en workshop i samband med SLTC 2008 visar att den syntaktiska annotationen ändå är till mycket god hjälp vid korpuslingvistiska undersökningar. Format, licens och distribution Format Den svenska trädbanken distribueras i ett format som kallas TIGER-XML, så att den ska kunna användas med det fritt tillgängliga sökverktyget TIGERSearch, som kan laddas ner från Institut für Maschinelle Sprachverarbeitung vid universitetet i Stuttgart. Licens Trädbanksdelen - d.v.s. de nytillagda syntaktiska annotationerna - av den svenska trädbanken är helt fri, med en öppen källkodslicens. Talbanken är fritt tillgänglig för forskning och undervisning. Den kan laddas ned här SUC kräver att varje användare tecknar en individuell licens med Institutionen för lingvistik vid Stockholms universitet. Från och med den 1/12 2008 är licensieringen av SUC delegerad till Språkbanken vid Göteborgs universitet. SUC-licensavtalet kan laddas ner i pdf-format här. Läs mer om SUC2 och SUC3 här För att erhålla SUC (och därmed den svenska trädbanken) behöver du skriva ut och skriva under licensavtalet och sedan skicka det till SUC-licens Språkbanken Institutionen för svenska, flerspråkighet och språkteknologi Göteborgs universitet Box 200 405 30 Göteborg Därefter återkommer vi per epost med nerladdningsinstruktioner. Distribution Den svenska trädbanken distribueras av Språkbanken. Se instruktioner i föregående avsnitt eller kontakta oss för mer information genom att eposta sb-info@svenska.gu.se. Den som redan har skrivit på en SUC-licens får direkt nedladdningsadress och lösenord från oss. Övriga behöver först skriva under ett licensavtal för SUC (se ovan). Referenser Om du vill citera Svensk trädbank i en artikel rekommenderar vi att du använder följande referens: Joakim Nivre, Beáta Megyesi, Sofia Gustafson-Capková, Filip Salomonsson and Bengt Dahlqvist (2008) Cultivating a Swedish Treebank In: Nivre, Dahllöf, and Megyesi (Eds), Resourceful Language Technology: Festschrift in Honor of Anna Sågvall Hein, pp111–120. Uppsala: Acta Universitatis Upsaliensis. http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-8933 Ange gärna den här sidan på Språkbanken som nedladdningssajt.

基于现有资源复用构建的瑞典语句法树库(Swedish Treebank)。 该瑞典语句法树库由乌普萨拉大学(语言学与文献学学院计算语言学研究组)与韦克舍大学数学与系统技术学院语言技术团队的研究人员合作开发完成。本树库通过整合两份现有瑞典语语言资源的语言学信息构建而成: 1. 塔尔班肯语料库(Talbanken):该语料库收录1970年代的瑞典书面语与转写口语语料,基于传统北欧语言学模型(类似迪德里奇森(Diderichsen)提出的扩展场分析法)配备了人工手动句法分析标注; 2. 斯德哥尔摩-于默奥语料库(SUC,Stockholm Umeå Corpus):这是一份经过形态句法标注的平衡语料库,为语料库中所有词汇标注了词类标签与词元,并收录了1990年代公开出版的瑞典书面语料。 简言之,本次整合工作通过半自动化流程为塔尔班肯语料库(Talbanken)添加了SUC的词类标签,并通过全自动化流程为塔尔班肯语料库与SUC两份语料库均添加了基于塔尔班肯语料库句法标注的短语结构版本。由于后者为全自动化流程,句法标注中难免存在错误,尤以SUC语料库为甚。2008年SLTC会议配套研讨会上公布的一项初步标注评估结果显示,该句法标注仍能为语料库语言学研究提供极大助力。 ## 格式、许可与分发 ### 格式 该瑞典语句法树库采用TIGER-XML格式进行分发,可配合免费开源的检索工具TIGERSearch使用,该工具可从斯图加特大学机器语言处理研究所(Institut für Maschinelle Sprachverarbeitung)官网下载。 ### 许可协议 该瑞典语句法树库的树库部分(即新增的句法标注内容)采用开源许可协议,完全免费开放使用。 塔尔班肯语料库(Talbanken)可免费用于科研与教学,此处可下载。 SUC(斯德哥尔摩-于默奥语料库)要求每位用户与斯德哥尔摩大学语言学研究所签署单独许可协议。自2008年12月1日起,SUC的许可授权工作转由哥德堡大学语言银行(Språkbanken)负责。SUC许可协议可在此处以PDF格式下载。如需了解SUC2与SUC3的更多信息,请点击此处。 如需获取SUC(及对应的瑞典语句法树库),请打印并签署许可协议后邮寄至以下地址: > SUC许可事务 > 语言银行(Språkbanken) > 瑞典语、多语言与语言技术研究所 > 哥德堡大学 > 信箱200 > 405 30 哥德堡 我们将通过电子邮件sb-info@svenska.gu.se发送下载相关的指导说明。 ### 分发方式 该瑞典语句法树库由语言银行(Språkbanken)负责分发。请参阅前文的操作指导,或发送电子邮件至sb-info@svenska.gu.se以获取更多信息。 已签署SUC许可协议的用户可直接从我们处获取下载地址与密码。其余用户需先签署SUC许可协议(详见上文)。 ## 参考文献 如需在论文中引用瑞典语句法树库,我们推荐使用以下参考文献格式: Joakim Nivre, Beáta Megyesi, Sofia Gustafson-Capková, Filip Salomonsson and Bengt Dahlqvist (2008) *Cultivating a Swedish Treebank* 收录于:Nivre, Dahllöf, and Megyesi(主编):*Resourceful Language Technology: Festschrift in Honor of Anna Sågvall Hein*,第111–120页。 乌普萨拉:乌普萨拉大学学报(Acta Universitatis Upsaliensis)。 http://urn.kb.se/resolve?urn=urn:nbn:se:uu:diva-8933 请将语言银行的该页面作为下载站点进行标注。
提供机构:
Språkbanken Text
创建时间:
2024-06-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作