Dmitriy007/restor_punct_Lenta2
收藏Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Dmitriy007/restor_punct_Lenta2
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- machine-generated
language:
- ru
language_creators:
- machine-generated
license:
- afl-3.0
multilinguality: []
pretty_name: Dmitriy007/restor_punct_Lenta2
size_categories:
- 100K<n<1M
source_datasets:
- original
tags: []
task_categories:
- token-classification
task_ids: []
# Dataset Card for Dmitriy007/restor_punct_Lenta2
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:**
- **Repository:**
- **Paper:**
- **Leaderboard:**
- **Point of Contact:**
### Dataset Summary
Набор данных restor_punct_Lenta2 (версия 2.0) представляет собой набор из 800 975 блоков русскоязычных предложений, разбитых на слова, каждое слово размечено маркером для последующей классификации токенов.
Набор данных очищен от символов: '...', ',', '«', '»', '\\', '-', '"'
Виды маркеров: L L. L! L? B B. B! N N. No
Примеры значений маркеров:
L -- данное слово с маленькой буквы + пробел
L. -- данное слово с маленькой буквы + тчк
B -- данное слово с заглавной буквы
B. -- данное слово с заглавной буквы + тчк
N -- Число + пробел
N. -- Число + тчк
No -- Символ не определён
### Supported Tasks and Leaderboards
token-classification: набор данных можно использовать для обучения модели восстановления пунктуации и заглавных букв.
### Languages
Текст на русском языке
## Dataset Structure
### Data Instances
Пример из набора поездов restor_punct_Lenta2 выглядит следующим образом:
{'words': ['фотограф-корреспондент', 'daily', 'mirror', 'рассказывает', 'случай', 'который', 'порадует', 'всех', 'друзей', 'животных'], 'labels': ['B', 'B', 'B', 'L', 'L', 'L', 'L', 'L', 'L', 'L.'], 'labels_id': [4, 4, 4, 0, 0, 0, 0, 0, 0, 1]}
### Data Fields
• 'words': список слов, содержащая текст разбитый на отдельные слова.
• 'labels': строка, список маркеров
• 'labels_id: целое число, от 0 до 9 , обозначающее порядковый номер маркера
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
Набор данных restor_punct_Lenta2 был разработан для обучения модели восстановления пунктуации и
аглавных букв в тексте предложения. Предполагалась, что обученная таким образом модель, будет использоваться в задачи транскрибации.
### Source Data
#### Initial Data Collection and Normalization
Данных restor_punct_Lenta2 был основан на наборе данных Lenta2 проекта CORUS.
#### Who are the source language producers?
[More Information Needed]
### Annotations
Набор данных не содержит никаких дополнительных аннотаций.
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
Имена пользователей или личная информация рецензентов не собирались вместе с обзорами, но потенциально могут быть восстановлены.
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
[More Information Needed]
### Contributions
Thanks to [@github-username](https://github.com/<github-username>) for adding this dataset.
提供机构:
Dmitriy007
原始信息汇总
数据集卡片:Dmitriy007/restor_punct_Lenta2
数据集描述
数据集概述
数据集 restor_punct_Lenta2 (版本 2.0) 包含 800,975 个俄语句子块,每个句子被分割成单词,每个单词都带有标记,用于后续的标记分类。
数据集已清除以下字符:..., ,, «, », , -, "
标记类型:L L. L! L? B B. B! N N. No
标记示例:
- L -- 小写字母单词 + 空格
- L. -- 小写字母单词 + 句号
- B -- 大写字母单词
- B. -- 大写字母单词 + 句号
- N -- 数字 + 空格
- N. -- 数字 + 句号
- No -- 未定义符号
支持的任务和排行榜
- token-classification: 数据集可用于训练恢复标点和首字母大写的模型。
语言
俄语
数据集结构
数据实例
训练集 restor_punct_Lenta2 的一个示例如下: json {words: [фотограф-корреспондент, daily, mirror, рассказывает, случай, который, порадует, всех, друзей, животных], labels: [B, B, B, L, L, L, L, L, L, L.], labels_id: [4, 4, 4, 0, 0, 0, 0, 0, 0, 1]}
数据字段
- words: 包含被分割成单独单词的文本的列表。
- labels: 标记列表
- labels_id: 从 0 到 9 的整数,表示标记的序号
数据分割
[更多信息待补充]
数据集创建
策划理由
数据集 restor_punct_Lenta2 旨在用于训练恢复句子中标点和首字母大写的模型。预期训练后的模型将用于转录任务。
源数据
初始数据收集和规范化
数据集 restor_punct_Lenta2 基于 CORUS 项目的 Lenta2 数据集。
源语言生产者
[更多信息待补充]
注释
数据集不包含任何额外的注释。
注释过程
[更多信息待补充]
注释者
[更多信息待补充]
个人和敏感信息
数据集不收集用户的姓名或个人评论信息,但潜在地可能被恢复。
使用数据的注意事项
数据集的社会影响
[更多信息待补充]
偏见讨论
[更多信息待补充]
其他已知限制
[更多信息待补充]
附加信息
数据集策展人
[更多信息待补充]
许可信息
[更多信息待补充]
引用信息
[更多信息待补充]
贡献
感谢 @github-username 添加此数据集。



