five

readerbench/ro-stories

收藏
Hugging Face2024-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/readerbench/ro-stories
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含19世纪至今的罗马尼亚作者所写的文本,涵盖了故事、短篇小说、童话和素描等多种类型。当前版本包含19位作者、1263篇完整文本和12516个段落,每个段落大约200字,并保留了段落的完整性。

该数据集包含19世纪至今的罗马尼亚作者所写的文本,涵盖了故事、短篇小说、童话和素描等多种类型。当前版本包含19位作者、1263篇完整文本和12516个段落,每个段落大约200字,并保留了段落的完整性。
提供机构:
readerbench
原始信息汇总

数据集概述

该数据集包含19世纪至今的罗马尼亚作者所写的文本,涵盖故事、短篇小说、童话和素描等多种文体。

数据集详情

  • 作者数量: 19位
  • 全文数量: 1263篇
  • 段落数量: 12516个
  • 段落平均字数: 约200字
  • 段落完整性: 保留段落完整性

作者统计信息

作者 全文数量 段落数量 全文平均字数 (标准差) 唯一词平均数量 (标准差) 类型-Token比率 (标准差)
Alexandru Vlahuta 96 647 1629.16 (1341.48) 735.19 (462.04) 0.5110 (0.0844)
Anton Bacalbasa 132 485 808.17 (720.04) 392.20 (244.57) 0.5256 (0.0660)
Barbu St. Delavrancea 47 747 4015.40 (2224.96) 1391.72 (658.60) 0.3730 (0.0599)
Costache Negruzzi 24 343 3482.62 (2253.38) 1236.46 (694.14) 0.4027 (0.0883)
Emil Garleanu 55 353 1533.58 (1582.43) 609.09 (449.03) 0.4649 (0.0767)
Emilia Plugaru 41 382 2176.71 (1705.21) 792.00 (454.83) 0.4091 (0.0702)
George Toparceanu 46 331 1689.11 (1246.86) 711.00 (412.92) 0.4728 (0.0815)
Ioan Slavici 89 1716 4692.76 (2156.69) 1306.64 (485.87) 0.3043 (0.0665)
Ion Creanga 45 424 2291.13 (2328.91) 720.96 (554.58) 0.4420 (0.1537)
Ion Luca Caragiale 60 585 2444.30 (1541.96) 895.13 (466.55) 0.3832 (0.0485)
Liviu Rebreanu 59 619 2544.49 (1770.39) 969.80 (518.88) 0.4165 (0.0654)
Mihai Eminescu 27 405 3642.78 (2167.54) 1284.67 (674.06) 0.3834 (0.0767)
Mihai Oltean 32 68 409.62 (394.16) 216.28 (174.42) 0.5938 (0.1093)
Mihail Sebastian 46 658 3478.37 (1826.51) 1234.85 (472.30) 0.3803 (0.0532)
Nicolae Filimon 35 375 2606.57 (1701.70) 998.20 (540.52) 0.4173 (0.0781)
Nicolae Iorga 306 2982 2437.67 (2215.16) 970.28 (741.50) 0.4834 (0.1054)
Panait Istrati 20 499 6299.85 (1202.32) 2177.75 (369.46) 0.3494 (0.0240)
Petre Ispirescu 40 630 3768.72 (1614.16) 1126.40 (359.51) 0.3183 (0.0517)
Traian Demetrescu 63 267 976.13 (581.40) 472.32 (234.24) 0.5279 (0.0845)
总计 1263 12516
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作