ViTH:面向医学图像检索的视觉Transformer哈希改进算法 |
| |
引用本文: | 刘传升,丁卫平,程纯,黄嘉爽,王海鹏.ViTH:面向医学图像检索的视觉Transformer哈希改进算法[J].西南大学学报,2024(5):11-26. |
| |
作者姓名: | 刘传升 丁卫平 程纯 黄嘉爽 王海鹏 |
| |
作者单位: | 南通大学信息科学技术学院 |
| |
基金项目: | 国家自然科学基金项目(61976120,62102199);;教育部人文社会科学研究青年基金项目(21YJCZH013);;江苏省自然科学基金项目(BK20231337);;江苏省高等学校自然科学研究重大项目(21KJA510004);;江苏省研究生科研与实践创新计划项目(SJCX22_1615); |
| |
摘 要: | 对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transformer模型作为基础的特征提取模块,其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation, PMT),进一步增强模型的非线性性能,接着在Transformer编码器内部的多头注意力(Multi-Head Attention, MHA)层引入空间金字塔池化(Spatial Pyramid Pooling, SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention, MHSPA)模块,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合.最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons, MLPs),上分支的MLP用来预...
|
关 键 词: | 医学图像检索 视觉Transformer 哈希 幂均值变换 空间金字塔池化 |
|
|