mlenjoyneer/RuTextSegNews
收藏数据集概述
数据集描述
数据集摘要
该数据集用于俄语新闻的自动文本分割。数据基于Yuri Baburov的新闻数据集(https://github.com/buriy/russian-nlp-datasets/releases/),涵盖2014年和2015年。标记是基于两种方法自动生成的:使用已有段落划分的文本和随机合并不同文本的部分。
支持的任务和排行榜
该数据集设计用于文本分割任务。
语言
数据集为俄语。
数据集结构
数据实例
每个实例包含文本句子的字符串列表、标签的整数列表(1表示新主题开始,0表示前一主题继续)以及样本生成方法的字符串(base或random_joining)。
json { "sentences": [ "В среду в столице Катара Дохе начался чемпионат мира по плаванию на короткой воде.", "За пять соревновательных дней в бассейне Hamad Aquatic Complex будет разыграно 46 комплектов наград.", "Соревнования в Дохе станут последней серьезной проверкой спортсменов перед чемпионатом мира по водным видам спорта, который пройдет в Казани в следующем году.", "В первый день соревнований серебро на дистанции 200 метров вольным стилем выиграли россиянин Данила Изотов и мужская сборная России в эстафете 4х100 метров кролем.", "Для российских спортсменов главным отборочным турниром к ЧМ стал чемпионат России, который состоялся месяц назад в Казани.", "Тренерский штаб сборной освободил от квалификации только одного спортсмена – Владимира Морозова, который на прошлом ЧМ в Стамбуле выиграл на дистанциях 50 и 100 м вольным стилем.", "Он стал единственным пловцом в составе россиян, кто выиграл на том чемпионате золотые медали.", "Изначально планировалось, что Морозов в Дохе стартует сразу на четырех дистанциях, но в итоге его программу сократили вдвое – до 100 м в комплексном плавании и 50 м кролем.", "Остальным спортсменам, в том числе и двукратному серебряному медалисту Олимпиады-2012 в Лондоне Евгению Коротышкину, пришлось проходить отбор.", "По окончании чемпионата России Коротышкин в интервью РБК отмечал, что его победного результата на чемпионате России на дистанции 100 м баттерфляем (50,1 с) может не хватить для попадания на пьедестал.", "«Чтобы бороться за медали в Дохе, необходимо улучшать это время на полсекунды, а может, и больше, – отметил Коротышкин в разговоре с автором этих строк.", "– Думаю, для бронзовой награды хватит 49,3 с, а победитель вполне может пробить отметку в 49 с».", "Российский пловец в начале ноября отмечал, что за месяц до старта чемпионата мира в Дохе у него есть резервы в улучшении результата.", "«В первую очередь надо работать над стартом и переворотами», – рассказал Коротышкин РБК.", "Главным соперником Евгения на стометровке баттерфляем станет южноафриканец Чад де Кло, накануне признанный FINA пловцом года.", "По словам Коротышкина, де Кло находится нынче в великолепной форме и постарается побить мировой рекорд россиянина на этой дистанции, который составляет 48,48 с. Еще до старта чемпионата одним из претендентов на медали помимо Морозова и Коротышкина в составе россиян являлся Данила Изотов.", "Вчера он сначала пробился в финал на дистанции 200 м вольным стилем с третьим результатом (1:42,45), а в решающем заплыве уступил лишь 22 сотые секунды Чаду де Кло и принес России первую серебряную медаль чемпионата мира в Дохе.", "Вместе со сборной России Изотов отобрался с пятым временем (3:08,15) в финал эстафеты 4 х 200 кролем.", "Женская команда России также выступит в решающем заплыве в этом виде программы.", "В эстафете 4 х 100 метров кролем мужская сборная России завоевала серебряную медаль, уступив только французскому квартету."], "labels": [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0], "method": "base" }
数据分割
| 数据集分割 | 分割中的实例数量 |
|---|---|
| 训练集 | 20000 |
| 测试集 | 4000 |
附加信息
许可信息
正在进行中
引用信息
正在进行中



