Chinese-Synonyms|中文同义词数据集|语料库数据集
收藏数据集概述
数据来源
- 在线成语词典
- 哈工大同义词词林扩展版
- 汉语大辞典的近义词大全
- 在线成语词典
- 在线近义词查询
数据处理
- 对于哈工大同义词词林,只取至少“成对出现”的同义词,不取单独的“同义词”。
- 当一个词在不同来源有不同同义词时,取这些同义词的并集。
- 哈工大同义词词林中,每组同义词的第一个词定义为目标词,其余词汇为目标词的同义词。
数据集内容
- synonyms.json:包含18,589条同义词语例,以字典形式保存。
- synonyms_expanded_narrow.json:包含52,157条同义词语例,每个目标词的同义词被视为另一个目标词,原本的目标词则变为其同义词的同义词。
- synonyms_expanded_broad.json:同样包含52,157条同义词语例,预设同义词间的广泛联系,认定目标词的同义词之间也存在同义词联系。
数据集特点
- Narrow扩展版:对同义词的定义较保守,更可靠,但可能无法联系一些潜在的同义词对。
- Broad扩展版:尽可能广泛地组建同义词网络,但可能包含一些不成立的同义词对。
应用建议
- 针对一词多义现象,建议使用统计学或机器学习的方式构建语言模型,以利用语言上下文进行词义消歧。

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
stock_predicted
该数据集可用于循环神经网络的学习,股票预测数据集通常包含与股票市场相关的各种数据,目的是用于训练和测试机器学习模型,以预测股票价格或市场趋势。以下是一些常见的特征和数据类型,通常会在股票预测数据集中找到: 1. 基本特征 日期:每个数据点的日期。 开盘价(Open):股票在交易开始时的价格。 收盘价(Close):股票在交易结束时的价格。 数据集下载链接见:http://t.csdnimg.cn/VnnfE 代码学习也可见博主海里有太阳
阿里云天池 收录
Dunhuang Grottoes Painting Dataset
该数据集专为敦煌石窟壁画修复而设计,提供了大量的训练和测试样本,足以支持深度学习方法的应用。
arXiv 收录
TimeExtractor
该数据集由JioNLP创建,旨在微调大型语言模型(LLMs)以从文本中提取时间实体,并将其标准化为JSON格式。数据集分为两部分:general.json包含从各种新闻来源提取的样本,smartspeaker.json包含从语音助手获取的样本。提取过程首先从文本中提取原始时间实体字符串,然后通过大型模型进行标准化处理,最终结果可以输入到JioNLP的时间解析模块jio.parse中进行处理,以获得准确可靠的结果。数据集目前规模较小,未来可以通过添加各种类型的文本来扩展。
huggingface 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录