five

Twitter Misspellings Dataset

收藏
arXiv2025-09-30 收录
下载链接:
https://noisy-text.github.io/norm-shared-task.html
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自推特上最常出现的1051个单词及其各种拼写错误。此外,该数据集最初在2015年被用于IBM公司的一项数据标准化挑战。规模上,数据集包含1051个单词,任务是对字符串相似度进行测量。

This dataset contains 1051 most frequently occurring words from Twitter along with their various spelling errors. It was initially used in a data standardization challenge hosted by IBM in 2015. The core task of this dataset, which comprises 1051 words, is string similarity measurement.
提供机构:
IBM
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作