five

jerteh/SrpELTeC

收藏
Hugging Face2024-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jerteh/SrpELTeC
下载链接
链接失效反馈
官方服务:
资源简介:
SrpELTeC是一个包含1840年至1920年间首次出版的旧塞尔维亚小说的语料库,这些小说在2018年至2022年间的COST ACTION CO16204项目中被数字化。该语料库包括120部小说,共计5,263,071个单词,22,700页,2,557章,158,317段,567首歌曲,2,972句诗,803段外语片段和949部提及的作品。

SrpELTeC是一个包含1840年至1920年间首次出版的旧塞尔维亚小说的语料库,这些小说在2018年至2022年间的COST ACTION CO16204项目中被数字化。该语料库包括120部小说,共计5,263,071个单词,22,700页,2,557章,158,317段,567首歌曲,2,972句诗,803段外语片段和949部提及的作品。
提供机构:
jerteh
原始信息汇总

数据集概述

基本信息

  • 许可证: cc-by-4.0
  • 语言: 塞尔维亚语(sr)
  • 领域: 文学文本(sents)
  • 美观名称: 塞尔维亚文学文本集合
  • 大小分类: 1M<n<10M
  • 任务分类: 文本生成
  • 标签: 文学

数据集描述

  • 名称: SrpELTeC
  • 内容: 包含120本塞尔维亚旧小说,首次出版于1840-1920年间,数字化于COST ACTION CO16204: Distant Reading for European Literary History项目中。
  • 详细数据: 共计5,263,071字,22,700页,2,557章,158,317段落,567首歌曲,2,972节,803段外语内容,949部提及作品。

数据集结构

  • 文件: 由两个文本文件组成
  • 加载方式: 使用from datasets import load_dataset函数加载,数据集标识为"jerteh/SrpELTeC"

引用信息

  • 引用格式: bibtex @inproceedings{stankovic2022distant, title={Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection}, author={Stankovi{c}, Ranka and Krstev, Cvetana and {v{S}}andrih Todorovi{c}, Branislava and Vitas, Du{v{s}}ko and {v{S}}kori{c}, Mihailo and Ikoni{c} Ne{v{s}}i{c}, Milica}, booktitle={Proceedings of the Thirteenth Language Resources and Evaluation Conference}, pages={3337--3345}, year={2022} }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作