five

SUC-romaner (StorSUC)

收藏
DataCite Commons2025-12-12 更新2025-04-16 收录
下载链接:
https://spraakbanken.gu.se/resurser/storsuc
下载链接
链接失效反馈
官方服务:
资源简介:
STORSUC är ett bonusmaterial som distribueras med SUC2.0 (se nedan). Materialet är inte formellt en del av SUC och följer inte korpusformatet. Det har inte annoterats, utan bara delats in i paragraf-liknande enheter. STORSUC är inte balanserat. Stockholm-Umeå-korpus (SUC) är en samling svenska texter från 1990-talet, med totalt en miljon ord. Korpusen är balanserad, vilket betyder att den innehåller olika texttyper och texter med olika stilnivåer. Texterna har märkts upp med ordklasstaggar, morfologisk analys och lemma (allt detta kan anses som referensdata), samt viss strukturell och funktionell information. Version 1.0 utvecklades i samarbete mellan Gunnel Källgren vid Stockholms Universitet och Eva Ejerhed vid Umeå universitet och gjordes tillgängligt 1997 av institutionen för lingvistik på Stockholms universitet. Version 2.0 gjordes tillgänglig 2006 av Sofia Gustafson-Capková och Britt Hartmann vid institutionen för lingvistik på Stockholms universitet. Den innehåller samma texter som SUC 1.0 men är utökad med viss annotering. Dessutom innehåller SUC 2.0 två bonusmaterial. TigerSUC är SUC 2.0 konverterad till TIGER-XML av Martin Volk. StorSUC är ytterligare SUC-material om fyra miljoner ord. Version 3.0 finns tillgänglig sedan 2012. Den innehåller förbättrad annotering, samt oannoterade texter om sju miljoner ord. (För TigerXML-versionen, Suc2c, Suc2d och DTD:erna hänvisar vi fortfarande till version 2.0.) Ytterligare information om sammanställning och uppmärkning av SUC finns i manualen för SUC 2.0 [PDF] Språkbanken distribuerar SUC 2.0 och SUC 3.0 i två varianter. Officiella korpusen SUC är fritt tillgänglig för forskning, men kräver att varje användare tecknar en individuell licens med Institutionen för lingvistik vid Stockholms universitet. Från och med den 1/12 2008 är licensieringen av SUC delegerad till Språkbanken Text vid Göteborgs universitet. Bilaga 3 av SUC-licensen [PDF] ska skrivas ut, skrivas under och sedan skickas till SUC-licens Språkbanken Text Institutionen för svenska, flerspråkighet och språkteknologi Göteborgs universitet Box 200 405 30 Göteborg Efter att vi har mottagit och registrerat den underskrivna licensen, kommer vi att kontakta dig med en nedladdningslänk. Meningsomkastad, automatiskt vidare berikad korpus En andra variant går att ladda ner direkt under den öppna CC BY-SA-licensen här nedanför. Denna variant är meningsomkastad, och dessutom har extra uppmärkning lagts till automatiskt av Språkbankens textanalysverktyg. Korpusen distribueras i Språkbankens standard-XML-format. Följande annoteringar är som i den officiella versionen: ordklass (pos-attribut på ordelement) morfologiska särdrag (msd-attribut) grundform (lemma-attribut) namngivna entiteter (endast SUC 3.0; <name>-taggar, inte <ne>-taggarna) All annan uppmärkning, till exempel länkningen mot SALDO, dependensparsning och en alternativ uppmärkning med namngivna entiteter (<ne>-taggar), har skapats automatiskt av Sparv. Det är också denna variant av SUC som går att utforska i Korp.
提供机构:
Språkbanken Text
创建时间:
2024-06-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作