five

procesaur/cirilica

收藏
Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/procesaur/cirilica
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - sr pretty_name: Ћирилица size_categories: - 100M<n<1B configs: - config_name: default data_files: - split: train path: - '*.jsonl' license: cc-by-sa-4.0 --- <!--img src="cover.png" class="cover"--> <table style="width:100%;height:100%"> <!--tr style="width:100%;height:30px"> <td colspan=2 align=center> <h1>Ћирилица/Ćirilica</h1> </td> <tr--> <tr style="width:100%;height:100%"> <td width=50%> <h2>Корпус оригинално ћириличних докумената</h2> <p>и латиничних парњака</p> <p>Погодан за обучавање модела и тестирање решења за пресловљавање.</p> <p>Иницијална верзија - око 200 милиона речи из корпуса Знање и Википедије</p> </td> <td> <h2>Korpus originalno ćiriličnih dokumenata</h2> <p>i latiničnih parnjaka</p> <p>Pogodan za obučavanje modela i testiranje rešenja za preslovljavanje.</p> <p>Inicijalna verzija - oko 200 miliona reči iz korpusa Znanje i Vikipedije</p> </td> </tr> </table> ```python from datasets import load_dataset dataset = load_dataset("procesaur/cirilica") cirlicni_tekstovi = [record["text_cyr"] for record in dataset] latinicni_tekstovi = [record["text_lat"] for record in dataset] ``` <div class="inline-flex flex-col" style="line-height: 1.5;padding-right:50px"> <div style="text-align: center; margin-top: 3px; font-size: 16px; font-weight: 800">Editor</div> <a href="https://huggingface.co/procesaur"> <div class="flex"> <div style="display:DISPLAY_1; margin-left: auto; margin-right: auto; width: 92px; height:92px; border-radius: 50%; background-size: cover; background-image: url(&#39;https://cdn-uploads.huggingface.co/production/uploads/1673534533167-63bc254fb8c61b8aa496a39b.jpeg?w=200&h=200&f=face&#39;)"> </div> </div> </a> <div style="text-align: center; font-size: 16px; font-weight: 800">Mihailo Škorić</div> <div> <a href="https://huggingface.co/procesaur"> <div style="text-align: center; font-size: 14px;">@procesaur</div> </a> </div> </div> </div> Citation: ```bibtex uskoro ``` <!--table style="width:100%;height:100%"> ISLRN: 476-040-938-571-9 <tr style="width:100%;height:100%"> <td width=50%> <p>Istraživanje je sprovedeno uz podršku Fonda za nauku Republike Srbije, #7276, Text Embeddings – Serbian Language Applications – TESLA.</p> </td> <td> <p>This research was supported by the Science Fund of the Republic of Serbia, #7276, Text Embeddings - Serbian Language Applications - TESLA.</p> </td> </tr> </table--> <div id="zastava"> <div class="grb"> <img src="https://www.ai.gov.rs/img/logo_60x120-2.png" style="position:relative; left:30px; z-index:10; height:85px"> </div> <table width=100% style="border:0px"> <tr style="background-color:#C6363C;width:100%;border:0px;height:30px"><td style="width:100vw"></td></tr> <tr style="background-color:#0C4076;width:100%;border:0px;height:30px"><td></td></tr> <tr style="background-color:#ffffff;width:100%;border:0px;height:30px"><td></td></tr> </table> </div> <style> .ffeat: { color:red } .cover { width: 100%; margin-bottom: 5pt } .highlight-container, .highlight { position: relative; text-decoration:none } .highlight-container { display: inline-block; } .highlight{ color:white; text-transform:uppercase; font-size: 16pt; } .highlight-container{ padding:5px 10px } .highlight-container:before { content: " "; display: block; height: 100%; width: 100%; margin-left: 0px; margin-right: 0px; position: absolute; background: #e80909; transform: rotate(2deg); top: -1px; left: -1px; border-radius: 20% 25% 20% 24%; padding: 10px 18px 18px 10px; } div.grb, #zastava>table { position:absolute; top:0px; left: 0px; margin:0px } div.grb>img, #zastava>table{ margin:0px } #zastava { position: relative; margin-bottom:120px } p { font-size:14pt } </style>
提供机构:
procesaur
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作