five

hasinduOnline/akura-dyslexia-sinhala

收藏
Hugging Face2025-12-11 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/hasinduOnline/akura-dyslexia-sinhala
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含僧伽罗语文本中常见的阅读障碍书写错误及其纠正示例,专为微调大型语言模型(如Llama 3)以检测和纠正这些特定模式而设计。数据集涵盖四种主要错误类型:视觉混淆(如ගෙරද → ගෙදර)、音位混淆(如න vs ණ)、视觉反转(如බ vs ඩ)和语法/口语错误(如යනව → යනවා)。数据集采用JSONL格式,适合基于聊天的模型微调。

This dataset contains examples of Sinhala text with common dyslexic writing errors and their corrections. It is designed for fine-tuning LLMs (like Llama 3) to detect and correct these specific patterns. The dataset covers 4 main types of errors: Visual Scrambling (e.g., ගෙරද → ගෙදර), Phonetic Confusion (e.g., න vs ණ), Visual Reversal (e.g., බ vs ඩ), and Grammar/Colloquial errors (e.g., යනව → යනවා). The dataset is in JSONL format, suitable for chat-based model fine-tuning.
提供机构:
hasinduOnline
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作