bigbio/paramed|医学翻译数据集|平行语料库数据集
收藏数据集概述:ParaMed
基本信息
- 名称: ParaMed
- 语言:
- 英语 (English)
- 中文 (Chinese)
- 许可证: CC-BY-4.0
- 多语言支持: 是
- 公共可用性: 是
- 任务类型: 翻译 (TRANSLATION)
数据集描述
- 主页: https://github.com/boxiangliu/ParaMed
- 是否公开: 是
- PubMed链接: 否
- 数据来源:
- 英文文章来源于 https://www.nejm.org/
- 中文文章来源于 http://nejmqianyan.cn/
- 数据内容: 包含自2011年以来的所有文章对(约2000对)
引用信息
@article{liu2021paramed, author = {Liu, Boxiang and Huang, Liang}, title = {ParaMed: a parallel corpus for English–Chinese translation in the biomedical domain}, journal = {BMC Medical Informatics and Decision Making}, volume = {21}, year = {2021}, url = {https://bmcmedinformdecismak.biomedcentral.com/articles/10.1186/s12911-021-01621-8}, doi = {10.1186/s12911-021-01621-8} }

LEGO数据集
该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息,用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录