clarin-pl/2021-punctuation-restoration

Name: clarin-pl/2021-punctuation-restoration
Creator: clarin-pl
Published: 2022-08-29 16:39:18
License: 暂无描述

Hugging Face2022-08-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/clarin-pl/2021-punctuation-restoration

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为2021-punctuation-restoration，主要用于从自动语音识别（ASR）系统的输出中恢复标点符号。数据集包含波兰语的文本和音频数据，分为两部分：WikiTalks（对话数据）和WikiNews（信息数据）。数据集的创建目的是提高ASR生成文本的可读性，并可能改善其他NLP任务的性能。数据集包含1200个文本，总计超过24万个单词，由100多名不同的朗读者朗读。数据集还提供了训练集和测试集，测试集包含从两个来源（WikiNews和WikiTalks）读取的文本的ASR转录。

The dataset named 2021-punctuation-restoration is primarily designed to restore punctuation marks from the outputs of automatic speech recognition (ASR) systems. It consists of Polish text and audio data, which is split into two subsets: WikiTalks (dialogue data) and WikiNews (informational data). The dataset is developed to improve the readability of ASR-generated texts, and may also boost the performance of other natural language processing (NLP) tasks. It includes 1200 texts totaling over 240,000 words, which were read by more than 100 distinct speakers. Additionally, the dataset provides training and test sets, where the test set contains ASR transcriptions of texts read from both WikiNews and WikiTalks sources.

提供机构：

clarin-pl

原始信息汇总

数据集概述

数据集名称

WikiPunct

数据集描述

WikiPunct 是一个包含波兰语Wikipedia页面的文本和音频数据集，由波兰朗读者朗读。数据集分为两个部分：对话式（WikiTalks）和信息式（WikiNews）。音频数据总时长近三十六小时，包括测试集。

数据集组成

文本数据：超过三万二千篇文本，其中WikiNews约15,000篇，WikiTalks约17,000篇。
音频数据：1200个音频文件，训练集包含1000个录音，测试集包含274个录音。
发言人：51名波兰男性发言人和54名波兰女性发言人。

数据集任务

任务描述：恢复ASR系统识别的朗读文本中的标点符号。
输入：序列的令牌（tokens）。
输出：序列的标签（tags），表示标点符号。
评估指标：F1分数（seqeval）。

数据集分割

训练集：800篇文本。
开发集：0篇文本。
测试集：200篇文本。

数据格式

输入格式：TSV文件，包含文本ID和无标点符号的小写输入文本。
输出格式：与输入文件相同数量的行，每行包含带有标点符号的文本。

评估过程

评估指标：精确度、召回率和F1分数，针对每个标点符号分别计算。
最终评分：根据每个标点符号的F1分数的加权平均计算。

数据集下载

数据集已发布在GitHub仓库：https://github.com/poleval/2021-punctuation-restoration
训练数据和其他额外数据可通过Google Drive下载。

许可证

Creative Commons - Attribution-NonCommercial-NoDerivatives 4.0 International (CC BY-NC-ND 4.0)

搜集汇总

数据集介绍

构建方式

在自动语音识别领域，标点符号的缺失显著影响文本可读性。该数据集通过众包方式构建，从波兰语维基新闻和维基讨论页面精选1200篇文本，由超过百名朗读者录制音频，形成近36小时的语音资料。原始文本经强制对齐处理，模拟ASR输出，构建了包含训练集与测试集的平行语料，其中训练集含1000条录音，测试集含200条录音，确保了数据在性别和文本类型上的平衡。

特点

该数据集以波兰语维基百科内容为基础，融合了信息性文本与会话性文本，覆盖了逗号、句号、问号等七种标点符号的恢复任务。其独特之处在于提供了强制对齐的文本与音频对应关系，支持多模态方法的研究。数据规模适中，包含超过3.2万篇文本，标点分布自然，且通过精确的说话人平衡设计，增强了数据集的代表性与实用性。

使用方法

使用者可通过提供的TSV格式文件获取无标点的文本序列，任务目标是为每个词元预测相应的标点标签。数据集支持基于文本或结合音频特征的模型训练，评估采用F1分数加权平均法，针对各标点符号单独计算。研究人员可利用附加的强制对齐时间戳和音频文件，开发端到端的标点恢复系统，以提升自动语音识别输出的可读性与后续自然语言处理任务的性能。

背景与挑战

背景概述

在自然语言处理领域，自动语音识别系统生成的文本通常缺乏标点符号与大小写，这严重影响了长文本的可读性与后续处理效率。2021年，波兰研究机构CLARIN-PL推出了2021-punctuation-restoration数据集，专注于波兰语的标点符号恢复任务。该数据集由众包方式构建，包含来自WikiNews和WikiTalks的超过240,000词文本，并由百余位朗读者录制音频，旨在通过强制对齐技术模拟ASR输出，为标点恢复模型提供训练与评估基准。其核心研究问题在于提升ASR文本的清晰度，并推动命名实体识别、句法分析等下游任务的发展，对低资源语言处理具有重要意义。

当前挑战

该数据集面临的挑战主要体现在两方面：在领域问题层面，标点恢复任务需处理自然口语的模糊性，例如口语中句子边界不清、标点规则灵活，这导致模型难以准确预测逗号、句号等符号的位置；同时，波兰语作为屈折语，其语法复杂性加剧了标点与语义关联的建模难度。在构建过程中，数据来源的异构性带来挑战：WikiNews与WikiTalks文本风格差异显著，前者为新闻体，后者为对话体，需平衡数据分布；此外，音频与文本的强制对齐可能因朗读错误或工具限制产生时间戳误差，影响ASR输出的模拟真实性。

常用场景

经典使用场景

在自然语言处理领域，自动语音识别系统生成的文本往往缺乏标点符号，这严重影响了文本的可读性和后续处理效率。该数据集通过提供波兰语朗读文本的音频与转写对齐数据，为标点恢复任务构建了标准化的评估基准。其经典使用场景聚焦于训练和验证标点恢复模型，研究者利用文本序列和语音特征，预测句子中逗号、句号、问号等标点的正确位置，从而提升ASR输出文本的结构清晰度。

实际应用

在实际应用中，该数据集所支撑的标点恢复技术能显著改善语音转写文本的用户体验。例如，在会议记录、实时字幕生成、语音助手交互日志等场景中，恢复标点后的文本更易于阅读和理解。此外，清晰的标点结构也为下游任务如命名实体识别、语义解析和机器翻译提供了更高质量的输入，从而提升整个语音处理流水线的性能。这项技术对于构建高效、人性化的语音交互系统具有直接的应用价值。

衍生相关工作

围绕该数据集，衍生出了一系列探索标点恢复前沿方法的经典工作。研究者们基于此基准，发展了结合文本与语音特征的多模态学习框架，以利用停顿、语调等副语言信息。同时，对抗迁移学习、半监督学习等策略被引入，以应对标注数据有限的挑战。这些工作不仅提升了波兰语标点恢复的精度，其方法论也常被借鉴至其他语言的相关任务中，促进了跨语言标点恢复模型的演进与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集