five

CZLC/CNC_skript12

收藏
Hugging Face2024-08-21 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/CZLC/CNC_skript12
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-nd-3.0 language: - cs --- ## Introduction This is the [SKRIPT2012](https://wiki.korpus.cz/doku.php/cnk:skript2012) dataset, maintained by the [Czech National Corpus](https://korpus.cz/) project. This dataset corresponds to the version available in the [LINDAT repository](https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1741), where it is named AKCES-1. The dataset was created from public `.rtf` and `.doc` file formats using the [convert_AKCES.py](https://huggingface.co/datasets/CZLC/CNC_skript12/blob/main/convert_AKCES.py) script. ## About Original Dataset (Taken from project [Wiki](https://wiki.korpus.cz/doku.php/cnk:skript2012)). The **Corpus SKRIPT2012** is a learner corpus aimed at representing the written language of Czech pupils and students at elementary and secondary schools. It consists of transcripts of students' written assignments produced during their language classes. ## Citation If you use this resource, please cite the following work: ```bibtex @misc{sebesta2013skript2012, author = {K. Šebesta and H. Goláňová and T. Jelínek and B. Jelínková and M. Křen and J. Letafková and P. Procházka and H. Skoumalová}, title = {SKRIPT2012: Akviziční korpus psané češtiny – přepisy písemných prací žáků základních a středních škol v ČR}, year = {2013}, howpublished = {Ústav Českého národního korpusu FF UK, Praha}, note = {Released corpus} }

license: CC BY-NC-ND 3.0(知识共享署名-非商业性使用-禁止演绎3.0协议) language: - 捷克语(cs) --- ## 简介 本数据集为[SKRIPT2012](https://wiki.korpus.cz/doku.php/cnk:skript2012),由[捷克国家语料库(Czech National Corpus)](https://korpus.cz/)项目维护。本数据集对应[LINDAT知识库(LINDAT repository)](https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1741)中的版本,该版本在库中命名为AKCES-1。本数据集通过[convert_AKCES.py](https://huggingface.co/datasets/CZLC/CNC_skript12/blob/main/convert_AKCES.py)脚本,从公开的`.rtf(富文本格式)`与`.doc(Microsoft Word文档格式)`文件转换得到。 ## 原始数据集概况 (内容源自项目[维基页面](https://wiki.korpus.cz/doku.php/cnk:skript2012)) **SKRIPT2012语料库**是面向捷克中小学学生书面语的学习者语料库,收录了学生在语言课程中完成的书面作业转录文本。 ## 引用要求 若使用本资源,请引用以下文献: bibtex @misc{sebesta2013skript2012, author = {K. Šebesta and H. Goláňová and T. Jelínek and B. Jelínková and M. Křen and J. Letafková and P. Procházka and H. Skoumalová}, title = {SKRIPT2012: Akviziční korpus psané češtiny – přepisy písemných prací žáků základních a středních škol v ČR}, year = {2013}, howpublished = {Ústav Českého národního korpusu FF UK, Praha}, note = {Released corpus} }
提供机构:
CZLC
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作