myParaphrase|自然语言处理数据集|缅甸语数据集
收藏数据集概述
数据集名称
myParaphrase
数据集描述
myParaphrase是一个针对缅甸语(Burmese)的释义数据集,旨在用于释义检测或语义相似性分析。该数据集包含40,461个句子对,用于释义和非释义的分类实验,以及开放测试数据集,包含1,000个句子对。
数据集版本信息
- 版本:1.0
- 发布日期:2022年12月3日
数据格式
数据集以CSV格式存储,包含以下字段:
- id
- pid1
- pid2
- paraphrase1
- paraphrase2
- is_paraphrase
实验设置
数据集用于训练三种Siamese神经网络模型:RNN-Siamese、CNN-Siamese和Transformer-Siamese。模型的关键超参数包括:
- 训练周期(num_epochs):10
- 批量大小(batch_size):512
- 学习率(learning_rate):0.001
实验结果
实验结果显示,CNN-Siamese模型在准确率上表现最佳,具体数据如下:
- CNN-Siamese:平均开发准确率0.88,最终开发准确率0.89,测试准确率0.88,训练/验证时间为0m33.637s。
引用信息
若使用此数据集,请引用以下文献:
- Myint Myint Htay, Ye Kyaw Thu, Hnin Aye Thant, Thepchai Supnithi, "Deep Siamese Neural Network Vs Random Forest for Myanmar Language Paraphrase Classification", Journal of Intelligent Informatics and Smart Technology, Oct 2nd Issue, 2022, pp. 25-1 to 25-9.
未来工作
- 更新myParaphrase数据集
- 研究更长的缅甸语句子和段落级别的内容

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
农业农作物生长全周期数据集
农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。
浙江大数据交易服务平台 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录