Dmitriy007/restor_punct_Lenta2

Name: Dmitriy007/restor_punct_Lenta2
Creator: Dmitriy007
Published: 2023-01-19 13:02:56
License: 暂无描述

Hugging Face2023-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Dmitriy007/restor_punct_Lenta2

下载链接

链接失效反馈

官方服务：

资源简介：

--- annotations_creators: - machine-generated language: - ru language_creators: - machine-generated license: - afl-3.0 multilinguality: [] pretty_name: Dmitriy007/restor_punct_Lenta2 size_categories: - 100K<n<1M source_datasets: - original tags: [] task_categories: - token-classification task_ids: [] # Dataset Card for Dmitriy007/restor_punct_Lenta2 ## Table of Contents - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** - **Repository:** - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary Набор данных restor_punct_Lenta2 (версия 2.0) представляет собой набор из 800 975 блоков русскоязычных предложений, разбитых на слова, каждое слово размечено маркером для последующей классификации токенов. Набор данных очищен от символов: '...', ',', '«', '»', '\\', '-', '"' Виды маркеров: L L. L! L? B B. B! N N. No Примеры значений маркеров: L -- данное слово с маленькой буквы + пробел L. -- данное слово с маленькой буквы + тчк B -- данное слово с заглавной буквы B. -- данное слово с заглавной буквы + тчк N -- Число + пробел N. -- Число + тчк No -- Символ не определён ### Supported Tasks and Leaderboards token-classification: набор данных можно использовать для обучения модели восстановления пунктуации и заглавных букв. ### Languages Текст на русском языке ## Dataset Structure ### Data Instances Пример из набора поездов restor_punct_Lenta2 выглядит следующим образом: {'words': ['фотограф-корреспондент', 'daily', 'mirror', 'рассказывает', 'случай', 'который', 'порадует', 'всех', 'друзей', 'животных'], 'labels': ['B', 'B', 'B', 'L', 'L', 'L', 'L', 'L', 'L', 'L.'], 'labels_id': [4, 4, 4, 0, 0, 0, 0, 0, 0, 1]} ### Data Fields • 'words': список слов, содержащая текст разбитый на отдельные слова. • 'labels': строка, список маркеров • 'labels_id: целое число, от 0 до 9 , обозначающее порядковый номер маркера ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale Набор данных restor_punct_Lenta2 был разработан для обучения модели восстановления пунктуации и аглавных букв в тексте предложения. Предполагалась, что обученная таким образом модель, будет использоваться в задачи транскрибации. ### Source Data #### Initial Data Collection and Normalization Данных restor_punct_Lenta2 был основан на наборе данных Lenta2 проекта CORUS. #### Who are the source language producers? [More Information Needed] ### Annotations Набор данных не содержит никаких дополнительных аннотаций. #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information Имена пользователей или личная информация рецензентов не собирались вместе с обзорами, но потенциально могут быть восстановлены. ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information [More Information Needed] ### Contributions Thanks to [@github-username](https://github.com/<github-username>) for adding this dataset.

提供机构：

Dmitriy007

原始信息汇总

数据集卡片：Dmitriy007/restor_punct_Lenta2

数据集描述

数据集概述

数据集 restor_punct_Lenta2 (版本 2.0) 包含 800,975 个俄语句子块，每个句子被分割成单词，每个单词都带有标记，用于后续的标记分类。

数据集已清除以下字符：..., ,, «, », , -, "

标记类型：L L. L! L? B B. B! N N. No

标记示例：

L -- 小写字母单词 + 空格
L. -- 小写字母单词 + 句号
B -- 大写字母单词
B. -- 大写字母单词 + 句号
N -- 数字 + 空格
N. -- 数字 + 句号
No -- 未定义符号

支持的任务和排行榜

token-classification: 数据集可用于训练恢复标点和首字母大写的模型。

语言

俄语

数据集结构

数据实例

训练集 restor_punct_Lenta2 的一个示例如下： json {words: [фотограф-корреспондент, daily, mirror, рассказывает, случай, который, порадует, всех, друзей, животных], labels: [B, B, B, L, L, L, L, L, L, L.], labels_id: [4, 4, 4, 0, 0, 0, 0, 0, 0, 1]}

数据字段

words: 包含被分割成单独单词的文本的列表。
labels: 标记列表
labels_id: 从 0 到 9 的整数，表示标记的序号

数据分割

[更多信息待补充]

数据集创建

策划理由

数据集 restor_punct_Lenta2 旨在用于训练恢复句子中标点和首字母大写的模型。预期训练后的模型将用于转录任务。

源数据

初始数据收集和规范化

数据集 restor_punct_Lenta2 基于 CORUS 项目的 Lenta2 数据集。

源语言生产者

[更多信息待补充]

注释

数据集不包含任何额外的注释。

注释过程

[更多信息待补充]

注释者

[更多信息待补充]

个人和敏感信息

数据集不收集用户的姓名或个人评论信息，但潜在地可能被恢复。

使用数据的注意事项

数据集的社会影响

[更多信息待补充]

偏见讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

[更多信息待补充]

贡献

感谢 @github-username 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集