five

mlenjoyneer/RuTextSegNews

收藏
Hugging Face2023-09-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mlenjoyneer/RuTextSegNews
下载链接
链接失效反馈
官方服务:
资源简介:
--- annotations_creators: - machine-generated language_creators: - found language: - ru size_categories: - 10K<n<100K license: - unknown multilinguality: - monolingual source_datasets: - original --- # Dataset Card ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Additional Information](#additional-information) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) ## Dataset Description ### Dataset Summary Dataset for automatic text segmentation of Russian news. News corpora based on Yuri Baburov's news dataset https://github.com/buriy/russian-nlp-datasets/releases/ for 2014 and 2015 years. Markup was generated automatically based on 2 methods: taking texts with ready division into paragraphs and random joining parts of different texts. ### Supported Tasks and Leaderboards Dataset designed for text segmentation task. ### Languages The dataset is in Russian. ### Usage ```python from datasets import load_dataset dataset = load_dataset('mlenjoyneer/RuTextSegNews') ``` ### Other datasets mlenjoyneer/RuTextSegWiki ## Dataset Structure ### Data Instances For each instance, there is a list of strings for text sentences, a list of ints for labels (1 is new topic starting and 0 is previous topic continuation) and a string for sample generation method (base or random_joining). ``` { "sentences": [ "В среду в столице Катара Дохе начался чемпионат мира по плаванию на короткой воде.", "За пять соревновательных дней в бассейне Hamad Aquatic Complex будет разыграно 46 комплектов наград.", "Соревнования в Дохе станут последней серьезной проверкой спортсменов перед чемпионатом мира по водным видам спорта, который пройдет в Казани в следующем году.", "В первый день соревнований серебро на дистанции 200 метров вольным стилем выиграли россиянин Данила Изотов и мужская сборная России в эстафете 4х100 метров кролем.", "Для российских спортсменов главным отборочным турниром к ЧМ стал чемпионат России, который состоялся месяц назад в Казани.", "Тренерский штаб сборной освободил от квалификации только одного спортсмена – Владимира Морозова, который на прошлом ЧМ в Стамбуле выиграл на дистанциях 50 и 100 м вольным стилем.", "Он стал единственным пловцом в составе россиян, кто выиграл на том чемпионате золотые медали.", "Изначально планировалось, что Морозов в Дохе стартует сразу на четырех дистанциях, но в итоге его программу сократили вдвое – до 100 м в комплексном плавании и 50 м кролем.", "Остальным спортсменам, в том числе и двукратному серебряному медалисту Олимпиады-2012 в Лондоне Евгению Коротышкину, пришлось проходить отбор.", "По окончании чемпионата России Коротышкин в интервью РБК отмечал, что его победного результата на чемпионате России на дистанции 100 м баттерфляем (50,1 с) может не хватить для попадания на пьедестал.", "«Чтобы бороться за медали в Дохе, необходимо улучшать это время на полсекунды, а может, и больше, – отметил Коротышкин в разговоре с автором этих строк.", "– Думаю, для бронзовой награды хватит 49,3 с, а победитель вполне может пробить отметку в 49 с».", "Российский пловец в начале ноября отмечал, что за месяц до старта чемпионата мира в Дохе у него есть резервы в улучшении результата.", "«В первую очередь надо работать над стартом и переворотами», – рассказал Коротышкин РБК.", "Главным соперником Евгения на стометровке баттерфляем станет южноафриканец Чад де Кло, накануне признанный FINA пловцом года.", "По словам Коротышкина, де Кло находится нынче в великолепной форме и постарается побить мировой рекорд россиянина на этой дистанции, который составляет 48,48 с. Еще до старта чемпионата одним из претендентов на медали помимо Морозова и Коротышкина в составе россиян являлся Данила Изотов.", "Вчера он сначала пробился в финал на дистанции 200 м вольным стилем с третьим результатом (1:42,45), а в решающем заплыве уступил лишь 22 сотые секунды Чаду де Кло и принес России первую серебряную медаль чемпионата мира в Дохе.", "Вместе со сборной России Изотов отобрался с пятым временем (3:08,15) в финал эстафеты 4 х 200 кролем.", "Женская команда России также выступит в решающем заплыве в этом виде программы.", "В эстафете 4 х 100 метров кролем мужская сборная России завоевала серебряную медаль, уступив только французскому квартету."], "labels": [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0], "method": "base"} ``` ### Data Splits | Dataset Split | Number of Instances in Split | |:---------|:---------| | Train | 20000 | | Test | 4000 | ## Additional Information ### Licensing Information In progress ### Citation Information ```bibtex In progress ```
提供机构:
mlenjoyneer
原始信息汇总

数据集概述

数据集描述

数据集摘要

该数据集用于俄语新闻的自动文本分割。数据基于Yuri Baburov的新闻数据集(https://github.com/buriy/russian-nlp-datasets/releases/),涵盖2014年和2015年。标记是基于两种方法自动生成的:使用已有段落划分的文本和随机合并不同文本的部分。

支持的任务和排行榜

该数据集设计用于文本分割任务。

语言

数据集为俄语。

数据集结构

数据实例

每个实例包含文本句子的字符串列表、标签的整数列表(1表示新主题开始,0表示前一主题继续)以及样本生成方法的字符串(base或random_joining)。

json { "sentences": [ "В среду в столице Катара Дохе начался чемпионат мира по плаванию на короткой воде.", "За пять соревновательных дней в бассейне Hamad Aquatic Complex будет разыграно 46 комплектов наград.", "Соревнования в Дохе станут последней серьезной проверкой спортсменов перед чемпионатом мира по водным видам спорта, который пройдет в Казани в следующем году.", "В первый день соревнований серебро на дистанции 200 метров вольным стилем выиграли россиянин Данила Изотов и мужская сборная России в эстафете 4х100 метров кролем.", "Для российских спортсменов главным отборочным турниром к ЧМ стал чемпионат России, который состоялся месяц назад в Казани.", "Тренерский штаб сборной освободил от квалификации только одного спортсмена – Владимира Морозова, который на прошлом ЧМ в Стамбуле выиграл на дистанциях 50 и 100 м вольным стилем.", "Он стал единственным пловцом в составе россиян, кто выиграл на том чемпионате золотые медали.", "Изначально планировалось, что Морозов в Дохе стартует сразу на четырех дистанциях, но в итоге его программу сократили вдвое – до 100 м в комплексном плавании и 50 м кролем.", "Остальным спортсменам, в том числе и двукратному серебряному медалисту Олимпиады-2012 в Лондоне Евгению Коротышкину, пришлось проходить отбор.", "По окончании чемпионата России Коротышкин в интервью РБК отмечал, что его победного результата на чемпионате России на дистанции 100 м баттерфляем (50,1 с) может не хватить для попадания на пьедестал.", "«Чтобы бороться за медали в Дохе, необходимо улучшать это время на полсекунды, а может, и больше, – отметил Коротышкин в разговоре с автором этих строк.", "– Думаю, для бронзовой награды хватит 49,3 с, а победитель вполне может пробить отметку в 49 с».", "Российский пловец в начале ноября отмечал, что за месяц до старта чемпионата мира в Дохе у него есть резервы в улучшении результата.", "«В первую очередь надо работать над стартом и переворотами», – рассказал Коротышкин РБК.", "Главным соперником Евгения на стометровке баттерфляем станет южноафриканец Чад де Кло, накануне признанный FINA пловцом года.", "По словам Коротышкина, де Кло находится нынче в великолепной форме и постарается побить мировой рекорд россиянина на этой дистанции, который составляет 48,48 с. Еще до старта чемпионата одним из претендентов на медали помимо Морозова и Коротышкина в составе россиян являлся Данила Изотов.", "Вчера он сначала пробился в финал на дистанции 200 м вольным стилем с третьим результатом (1:42,45), а в решающем заплыве уступил лишь 22 сотые секунды Чаду де Кло и принес России первую серебряную медаль чемпионата мира в Дохе.", "Вместе со сборной России Изотов отобрался с пятым временем (3:08,15) в финал эстафеты 4 х 200 кролем.", "Женская команда России также выступит в решающем заплыве в этом виде программы.", "В эстафете 4 х 100 метров кролем мужская сборная России завоевала серебряную медаль, уступив только французскому квартету."], "labels": [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0], "method": "base" }

数据分割

数据集分割 分割中的实例数量
训练集 20000
测试集 4000

附加信息

许可信息

正在进行中

引用信息

正在进行中

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作