GloVe|自然语言处理数据集|词嵌入数据集
收藏
- GloVe(Global Vectors for Word Representation)数据集首次由斯坦福大学的研究人员提出,旨在通过全局词频统计来生成词向量。
- GloVe数据集在自然语言处理领域首次得到广泛应用,特别是在词义相似性和词义消歧任务中表现出色。
- 随着深度学习技术的发展,GloVe数据集被集成到多个自然语言处理框架中,如TensorFlow和PyTorch,进一步推动了其在实际应用中的普及。
- GloVe数据集在多个国际自然语言处理竞赛中获得优异成绩,证明了其在词向量生成领域的领先地位。
- 研究人员开始探索GloVe数据集在跨语言词向量生成中的应用,取得了初步成果,扩展了其应用范围。
- GloVe数据集的改进版本发布,增加了更多的语料库和优化算法,提升了词向量的质量和生成效率。
- GloVe数据集在多模态学习中的应用研究逐渐增多,特别是在图像和文本联合表示学习中展现出潜力。
- 1GloVe: Global Vectors for Word RepresentationStanford University · 2014年
- 2Evaluation of GloVe and Word2Vec on Word Similarity and Relatedness TasksUniversity of Cambridge · 2015年
- 3A Comparative Study of Word Embeddings: GloVe, Word2Vec, and FastTextUniversity of Waterloo · 2018年
- 4Improving Distributional Similarity with Lessons Learned from Word EmbeddingsUniversity of Massachusetts Amherst · 2015年
- 5Word Embeddings: A SurveyUniversity of São Paulo · 2019年
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录