five

willwade/txt-sms-abbreviations

收藏
Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/willwade/txt-sms-abbreviations
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含1539个短信/文本缩写的精选列表,这些缩写经过NLTK处理,以确定它们是否被普遍认为是一个完整的单词。数据集由Will Wade整理,语言为英语,使用Apache-2.0许可证。数据集可用于训练缩写或作为语法错误纠正(GEC)任务的一部分。

一个包含1539个短信/文本缩写的精选列表,这些缩写经过NLTK处理,以确定它们是否被普遍认为是一个完整的单词。数据集由Will Wade整理,语言为英语,使用Apache-2.0许可证。数据集可用于训练缩写或作为语法错误纠正(GEC)任务的一部分。
提供机构:
willwade
原始信息汇总

数据集卡片:TXT/SMS缩写

数据集详情

数据集描述

一个精心挑选的缩写列表,通常用于短信、游戏聊天和其他场合。我们试图删除解释,并明确提供缩写的完整扩展。请注意,某些项目已经是完整的单词。

  • 策划者: Will Wade
  • 语言(NLP): 英语
  • 许可证: Apache-2

用途

用作缩写训练集或作为GEC任务的一部分。

数据加载示例

python import csv

从sms.csv文件中加载缩写及其扩展到字典中

abbreviations_dict = {} with open(sms.csv, mode=r, encoding=utf-8) as infile: reader = csv.reader(infile, delimiter=,) next(reader, None) # 跳过标题行(如果存在) for row in reader: if len(row) >= 3: abbreviation = row[0].strip().upper() expansion = row[1].strip() is_word = row[2].strip().lower() in [true, yes, 1] # 转换为布尔值 abbreviations_dict[abbreviation] = (expansion, is_word) else: print(f"跳过格式错误的行: {row}")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作