willwade/txt-sms-abbreviations
收藏Hugging Face2024-03-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/willwade/txt-sms-abbreviations
下载链接
链接失效反馈官方服务:
资源简介:
一个包含1539个短信/文本缩写的精选列表,这些缩写经过NLTK处理,以确定它们是否被普遍认为是一个完整的单词。数据集由Will Wade整理,语言为英语,使用Apache-2.0许可证。数据集可用于训练缩写或作为语法错误纠正(GEC)任务的一部分。
一个包含1539个短信/文本缩写的精选列表,这些缩写经过NLTK处理,以确定它们是否被普遍认为是一个完整的单词。数据集由Will Wade整理,语言为英语,使用Apache-2.0许可证。数据集可用于训练缩写或作为语法错误纠正(GEC)任务的一部分。
提供机构:
willwade
原始信息汇总
数据集卡片:TXT/SMS缩写
数据集详情
数据集描述
一个精心挑选的缩写列表,通常用于短信、游戏聊天和其他场合。我们试图删除解释,并明确提供缩写的完整扩展。请注意,某些项目已经是完整的单词。
- 策划者: Will Wade
- 语言(NLP): 英语
- 许可证: Apache-2
用途
用作缩写训练集或作为GEC任务的一部分。
数据加载示例
python import csv
从sms.csv文件中加载缩写及其扩展到字典中
abbreviations_dict = {} with open(sms.csv, mode=r, encoding=utf-8) as infile: reader = csv.reader(infile, delimiter=,) next(reader, None) # 跳过标题行(如果存在) for row in reader: if len(row) >= 3: abbreviation = row[0].strip().upper() expansion = row[1].strip() is_word = row[2].strip().lower() in [true, yes, 1] # 转换为布尔值 abbreviations_dict[abbreviation] = (expansion, is_word) else: print(f"跳过格式错误的行: {row}")



