Violet-yo/Chinese-Braille-Dataset-10per-Tone|盲文数据集|中文处理数据集

hugging_face2024-07-09 更新2024-06-29 收录

盲文

中文处理

下载链接：

https://hf-mirror.com/datasets/Violet-yo/Chinese-Braille-Dataset-10per-Tone

下载链接

链接失效反馈

资源简介：

`Chinese-Braille-10per-Tone`数据集旨在解决公开可用的中文盲文数据集稀缺的问题。原始数据来源于Leipzig Corpora Collection，包含2007年至2009年间从新闻媒体收集的一百万个离散句子。这些句子通过中国盲文在线平台的工具转换为带有完整声调的盲文，形成了`Chinese-Braille-Dataset-Full-Tone`数据集。经过数据清洗和去重后，数据集规模缩减至约60万句。为了模拟实际使用中省略90%声调的情况，从完整声调数据集中随机移除了90%的声调，生成了`Chinese-Braille-10per-Tone`数据集。此外，还创建了一个完全移除声调的`Chinese-Braille-Dataset-No-Tone`数据集。数据集统计信息包括训练、验证和测试集的样本数量、盲文和中文句子的平均和中位长度。

提供机构：

Violet-yo

原始信息汇总

Chinese Braille Dataset

数据集描述

Chinese-Braille-10per-Tone 数据集解决了公开可用中文盲文数据集稀缺的问题。原始中文文本数据来源于公开的 Leipzig Corpora Collection，包含2007年至2009年间从新闻媒体收集的100万条独立句子。

中文汉字通过中国盲文在线平台的工具转换为“全音调”盲文，形成 Chinese-Braille-Dataset-Full-Tone 数据集。该工具基于规则的方法标注汉字发音并转换为盲文，但有时会返回错位数据和乱码。经过数据清洗和去重后，数据集大小减少至约60万条句子。

随机移除 Chinese-Braille-Dataset-Full-Tone 数据集中90%的音调，生成 Chinese-Braille-10per-Tone 数据集，以模拟现实世界中盲文使用中约90%音调被省略的情况。通过识别和排除数字及标点符号，确保仅移除音调标记。

此外，还创建了 Chinese-Braille-Dataset-No-Tone 数据集，移除了 Chinese-Braille-Dataset-Full-Tone 数据集中的所有音调。

数据集统计

	# 样本数	盲文长度（均值/中位数）字符串	盲文长度（均值/中位数）标记	中文长度（均值/中位数）字符串	中文长度（均值/中位数）标记
训练集	525072	145/112	149/115	74/64	59/51
验证集	65634	117/96	121/99	71/62	57/50
测试集	65634	107/90	111/93	72/63	58/50

资源

AI搜集汇总

数据集介绍

构建方式

在构建`Chinese-Braille-10per-Tone`数据集时，研究者首先从公开的*Leipzig Corpora Collection*中获取了2007至2009年间的新闻媒体文本，共计一百万句。这些中文文本通过中国盲文在线平台的工具被转换为带有完整声调的盲文，形成`Chinese-Braille-Dataset-Full-Tone`数据集。随后，研究者随机移除了90%的声调标记，以模拟实际盲文使用中省略声调的情况，从而生成了`Chinese-Braille-10per-Tone`数据集。此过程中，数字和标点符号因其独特的盲文表示方式被保留，确保了数据集的准确性和实用性。

特点

`Chinese-Braille-10per-Tone`数据集的显著特点在于其声调信息的保留与省略的平衡。该数据集不仅包含了完整的盲文转换，还通过随机移除90%的声调，精确模拟了实际盲文使用中的常见情况。此外，数据集的构建过程中严格区分了数字和标点符号，确保了声调移除的准确性，避免了数据混乱。这种设计使得该数据集在盲文翻译和相关研究中具有极高的实用价值和研究潜力。

使用方法

使用`Chinese-Braille-10per-Tone`数据集时，研究者和开发者可以利用其提供的盲文与中文对照数据，进行盲文翻译模型的训练与评估。数据集的结构清晰，包含训练集、验证集和测试集，便于进行系统的模型开发和性能测试。此外，数据集的源代码和相关资源均公开在GitHub上，用户可以参考这些资源进行进一步的数据处理和模型优化。通过这些方法，用户能够充分利用该数据集，推动盲文翻译技术的发展。

背景与挑战

背景概述

在辅助技术领域，中文盲文数据集的稀缺性一直是一个显著的挑战。Violet-yo/Chinese-Braille-Dataset-10per-Tone数据集的创建旨在填补这一空白，由Alan Y. Wu等人主导，基于Leipzig Corpora Collection的新闻媒体数据，涵盖2007至2009年间的一百万条句子。该数据集通过中国盲文在线平台将中文文本转换为‘全音调’盲文，随后随机移除90%的音调，以模拟实际盲文使用情况。这一数据集不仅丰富了中文盲文资源的多样性，还为相关研究提供了宝贵的数据支持。

当前挑战

尽管Violet-yo/Chinese-Braille-Dataset-10per-Tone数据集在丰富中文盲文资源方面取得了显著进展，但其构建过程中仍面临诸多挑战。首先，原始数据转换为盲文时存在数据错位和乱码问题，需进行复杂的数据清洗和去重处理。其次，移除音调时需精确区分数字和标点符号，确保仅移除音调标记，这增加了数据处理的复杂性。此外，数据集的多样性和代表性仍需进一步增强，以确保其在实际应用中的广泛适用性。

常用场景

经典使用场景

在处理中文盲文数据时，`Chinese-Braille-10per-Tone`数据集提供了一个独特的视角。该数据集通过从原始的`Chinese-Braille-Dataset-Full-Tone`中随机移除90%的声调，模拟了实际盲文使用中声调的省略情况。这种处理方式使得数据集在训练和评估盲文翻译模型时，能够更准确地反映实际应用中的挑战，特别是在声调信息缺失的情况下，如何保持翻译的准确性和流畅性。

衍生相关工作

基于`Chinese-Braille-10per-Tone`数据集，已衍生出多项相关工作。例如，研究者们利用该数据集开发了多种盲文翻译模型，并在实际应用中进行了测试和优化。此外，该数据集还激发了对盲文数据处理和翻译技术的深入研究，推动了相关领域的技术进步。例如，有研究团队基于该数据集开发了自动化的盲文校对工具，进一步提升了盲文翻译的准确性和效率。

数据集最近研究

最新研究方向

在辅助技术领域，特别是针对视障人士的辅助工具研究中，中文盲文数据集的构建与应用已成为前沿课题。Violet-yo/Chinese-Braille-Dataset-10per-Tone数据集的推出，填补了中文盲文公开数据集的空白，为研究者提供了宝贵的资源。该数据集通过从Leipzig Corpora Collection中提取中文文本，并利用中国盲文在线平台将其转换为带有音调的盲文，进一步通过随机去除90%的音调，模拟实际盲文使用场景，从而生成更具实用性的数据集。这一研究不仅推动了盲文翻译技术的进步，也为开发更精准的盲文识别和生成模型提供了基础。此外，该数据集的多样性，包括全音调、无音调及10%音调版本，为不同应用场景下的盲文处理提供了丰富的实验材料，预示着未来在盲文教育、辅助阅读设备及智能翻译系统等领域将有更广泛的应用前景。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

Data_on_Data_Analysts

我们正在探索数据分析师职位的就业市场趋势：需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息，直接来源于Google的职位搜索结果。数据收集始于2022年11月4日，并持续增长，每天新增约100个职位信息，提供了当前就业市场的持续更新快照。

github 收录