jerteh/SrpELTeC
收藏Hugging Face2024-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jerteh/SrpELTeC
下载链接
链接失效反馈官方服务:
资源简介:
SrpELTeC是一个包含1840年至1920年间首次出版的旧塞尔维亚小说的语料库,这些小说在2018年至2022年间的COST ACTION CO16204项目中被数字化。该语料库包括120部小说,共计5,263,071个单词,22,700页,2,557章,158,317段,567首歌曲,2,972句诗,803段外语片段和949部提及的作品。
SrpELTeC是一个包含1840年至1920年间首次出版的旧塞尔维亚小说的语料库,这些小说在2018年至2022年间的COST ACTION CO16204项目中被数字化。该语料库包括120部小说,共计5,263,071个单词,22,700页,2,557章,158,317段,567首歌曲,2,972句诗,803段外语片段和949部提及的作品。
提供机构:
jerteh
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-4.0
- 语言: 塞尔维亚语(sr)
- 领域: 文学文本(sents)
- 美观名称: 塞尔维亚文学文本集合
- 大小分类: 1M<n<10M
- 任务分类: 文本生成
- 标签: 文学
数据集描述
- 名称: SrpELTeC
- 内容: 包含120本塞尔维亚旧小说,首次出版于1840-1920年间,数字化于COST ACTION CO16204: Distant Reading for European Literary History项目中。
- 详细数据: 共计5,263,071字,22,700页,2,557章,158,317段落,567首歌曲,2,972节,803段外语内容,949部提及作品。
数据集结构
- 文件: 由两个文本文件组成
- 加载方式: 使用
from datasets import load_dataset函数加载,数据集标识为"jerteh/SrpELTeC"
引用信息
- 引用格式: bibtex @inproceedings{stankovic2022distant, title={Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection}, author={Stankovi{c}, Ranka and Krstev, Cvetana and {v{S}}andrih Todorovi{c}, Branislava and Vitas, Du{v{s}}ko and {v{S}}kori{c}, Mihailo and Ikoni{c} Ne{v{s}}i{c}, Milica}, booktitle={Proceedings of the Thirteenth Language Resources and Evaluation Conference}, pages={3337--3345}, year={2022} }



