willwade/txt-sms-abbreviations

Name: willwade/txt-sms-abbreviations
Creator: willwade
Published: 2024-03-06 10:14:19
License: 暂无描述

Hugging Face2024-03-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/willwade/txt-sms-abbreviations

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含1539个短信/文本缩写的精选列表，这些缩写经过NLTK处理，以确定它们是否被普遍认为是一个完整的单词。数据集由Will Wade整理，语言为英语，使用Apache-2.0许可证。数据集可用于训练缩写或作为语法错误纠正（GEC）任务的一部分。

提供机构：

willwade

原始信息汇总

数据集卡片：TXT/SMS缩写

数据集详情

数据集描述

一个精心挑选的缩写列表，通常用于短信、游戏聊天和其他场合。我们试图删除解释，并明确提供缩写的完整扩展。请注意，某些项目已经是完整的单词。

策划者： Will Wade
语言（NLP）： 英语
许可证： Apache-2

用途

用作缩写训练集或作为GEC任务的一部分。

数据加载示例

python import csv

从sms.csv文件中加载缩写及其扩展到字典中

abbreviations_dict = {} with open(sms.csv, mode=r, encoding=utf-8) as infile: reader = csv.reader(infile, delimiter=,) next(reader, None) # 跳过标题行（如果存在） for row in reader: if len(row) >= 3: abbreviation = row[0].strip().upper() expansion = row[1].strip() is_word = row[2].strip().lower() in [true, yes, 1] # 转换为布尔值 abbreviations_dict[abbreviation] = (expansion, is_word) else: print(f"跳过格式错误的行: {row}")

5,000+

优质数据集

54 个

任务类型

进入经典数据集