Mamba-in-Computer-Vision

Mamba-in-Vision

A paper list of some recent Mamba-based CV works. If you find some ignored papers, please open issues or pull requests.

**Last updated: 2024/11/22

Mamba

(arXiv 2023.12) Mamba: Linear-Time Sequence Modeling with Selective State Spaces, [Paper], [Code]

Survey

(arXiv 2024.04) Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges, [Paper], [Project]
(arXiv 2024.04) A Survey on Visual Mamba, [Paper]
(arXiv 2024.04) State Space Model for New-Generation Network Alternative to Transformers: A Survey, [Paper], [Project]
(arXiv 2024.05) A Survey on Vision Mamba: Models, Applications and Challenges, [Paper], [Project]
(arXiv 2024.05) Vision Mamba: A Comprehensive Survey and Taxonomy, [Paper], [Project]
(arXiv 2024.10) A Comprehensive Survey of Mamba Architectures for Medical Image Analysis: Classification, Segmentation, Restoration and Beyond, [Paper],[Code]
(arXiv 2024.10) Mamba in Vision: A Comprehensive Survey of Techniques and Applications, [Paper],[Code]

Recent Papers

Action

(arXiv 2024.03) HARMamba: Efficient Wearable Sensor Human Activity Recognition Based on Bidirectional Selective SSM, [Paper]
(arXiv 2024.04) Simba: Mamba augmented U-ShiftGCN for Skeletal Action Recognition in Videos, [Paper]
(arXiv 2024.09) Mamba Fusion: Learning Actions Through Questioning, [Paper], [Code]
(arXiv 2024.10) SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition, [Paper], [Code]

Adversarial Attack

(arXiv 2024.03) Understanding Robustness of Visual State Space Models for Image Classification, [Paper]
(arXiv 2024.08) Exploring Robustness of Visual State Space model against Backdoor Attacks, [Paper]

Anomaly Detection

(arXiv 2024.04) MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection, [Paper], [Code]
(arXiv 2024.07) ALMRR: Anomaly Localization Mamba on Industrial Textured Surface with Feature Reconstruction and Refinement, [Paper], [Code]

Assessment

(arXiv 2024.06) Q-Mamba: On First Exploration of Vision Mamba for Image Quality Assessment, [Paper], [Code]

Autonomous Driving

(arXiv 2024.05) DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving, [Paper]
(arXiv 2024.08) MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering, [Paper], [Code]
(arXiv 2024.08) OccMamba: Semantic Occupancy Prediction with State Space Models, [Paper]
(arXiv 2024.08) MambaLoc: Efficient Camera Localisation via State Space Model, [Paper]
(arXiv 2024.09) DSDFormer: An Innovative Transformer-Mamba Framework for Robust High-Precision Driver Distraction Identification, [Paper]
(arXiv 2024.09) CollaMamba: Efficient Collaborative Perception with Cross-Agent Spatial-Temporal State Space Model, [Paper]
(arXiv 2024.09) CoMamba: Real-time Cooperative Perception Unlocked with State Space Models, [Paper]

Classification (Backbone)

(arXiv 2024.01) Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model, [Paper], [Code]
(arXiv 2024.01) VMamba: Visual State Space Model, [Paper], [Code]
(arXiv 2024.02) Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining, [Paper], [Code]
(arXiv 2024.02) Res-VMamba: Fine-Grained Food Category Visual Classification Using Selective State Space Models with Deep Residual Learning, [Paper],[Code]
(arXiv 2024.02) Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data, [Paper]
(arXiv 2024.03) LocalMamba: Visual State Space Model with Windowed Selective Scan, [Paper], [Code]
(arXiv 2024.03) EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba, [Paper], [Code]
(arXiv 2024.03) On the low-shot transferability of [V]-Mamba, [Paper]
(arXiv 2024.03) SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series, [Paper], [Code]
(arXiv 2024.03) PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition, [Paper],[Code]
(arXiv 2024.03) MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection, [Paper],[Code]
(arXiv 2024.05) Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model, [Paper],[Code]
(arXiv 2024.05) Scalable Visual State Space Model with Fractal Scanning, [Paper]
(arXiv 2024.05) Mamba-R: Vision Mamba ALSO Needs Registers, [Paper]
(arXiv 2024.05) Demystify Mamba in Vision: A Linear Attention Perspective, [Paper],[Code]
(arXiv 2024.05) Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain, [Paper],[Code]
(arXiv 2024.06) Autoregressive Pretraining with Mamba in Vision, [Paper],[Code]
(arXiv 2024.06) Towards Evaluating the Robustness of Visual State Space Models, [Paper],[Code]
(arXiv 2024.06) MambaVision: A Hybrid Mamba-Transformer Vision Backbone, [Paper],[Code]
(arXiv 2024.07) GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model, [Paper],[Code]
(arXiv 2024.09) Stochastic Layer-Wise Shuffle: A Good Practice to Improve Vision Mamba Training, [Paper],[Code]
(arXiv 2024.09) SparX: A Sparse Cross-Layer Connection Mechanism for Hierarchical Vision Mamba and Transformer Networks, [Paper],[Code]
(arXiv 2024.09) Famba-V: Fast Vision Mamba with Cross-Layer Token Fusion, [Paper]
(arXiv 2024.09) Distillation-free Scaling of Large SSMs for Images and Videos, [Paper]
(arXiv 2024.09) Exploring Token Pruning in Vision State Space Models, [Paper]
(arXiv 2024.10) MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining, [Paper]
(arXiv 2024.10) GlobalMamba: Global Image Serialization for Vision Mamba, [Paper],[Code]
(arXiv 2024.10) START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation, [Paper],[Code]
(arXiv 2024.10) Spatial-Mamba: Effective Visual State Space Models via Structure-Aware State Fusion, [Paper],[Code]
(arXiv 2024.11) MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba, [Paper]

Compression

(arXiv 2024.05) MambaVC: Learned Visual Compression with Selective State Spaces, [Paper]
(arXiv 2024.10) MambaSCI: Efficient Mamba-UNet for Quad-Bayer Patterned Video Snapshot Compressive Imaging, [Paper]

Crowd Counting

(arXiv 2024.05) VMambaCC: A Visual State Space Model for Crowd Counting, [Paper]

Deblurring

(arXiv 2024.03) Aggregating Local and Global Features via Selective State Spaces Model for Efficient Image Deblurring, [Paper],[Code]
(arXiv 2024.05) Efficient Visual State Space Model for Image Deblurring, [Paper]

Dehazing

(arXiv 2024.02) U-shaped Vision Mamba for Single Image Dehazing, [Paper],[Code]
(arXiv 2024.05) RSDehamba: Lightweight Vision Mamba for Remote Sensing Satellite Image Dehazing, [Paper]

Depth

(arXiv 2024.06) MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation, [Paper],[Code]

Deraining

(arXiv 2024.04) FreqMamba: Viewing Mamba from a Frequency Perspective for Image Deraining, [Paper]
(arXiv 2024.05) Image Deraining with Frequency-Enhanced State Space Model, [Paper]
(arXiv 2024.08) RainMamba: Enhanced Locality Learning with State Space Models for Video Deraining, [Paper],[Code]
(arXiv 2024.09) A Hybrid Transformer-Mamba Network for Single Image Deraining, [Paper]

Detection

(arXiv 2024.03) MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection, [Paper],[Code]
(arXiv 2024.04) Fusion-Mamba for Cross-modality Object Detection, [Paper]
(arXiv 2024.04) CFMW: Cross-modality Fusion Mamba for Multispectral Object Detection under Adverse Weather Conditions, [Paper],[Code]
(arXiv 2024.05) SOAR: Advancements in Small Body Object Detection for Aerial Imagery Using State Space Models and Programmable Gradients, [Paper],[Code]
(arXiv 2024.06) Mamba YOLO: SSMs-Based YOLO For Object Detection, [Paper],[Code]
(arXiv 2024.08) MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection, [Paper]
(arXiv 2024.08) MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection, [Paper],[Code]
(arXiv 2024.10) Mamba Capsule Routing Towards Part-Whole Relational Camouflaged Object Detection, [Paper],[Code]
(arXiv 2024.10) HRVMamba: High-Resolution Visual State Space Model for Dense Prediction, [Paper],[Code]
(arXiv 2024.10) MambaBEV: An efficient 3D detection model with Mamba2, [Paper]
(arXiv 2024.11) MambaDETR: Query-based Temporal Modeling using State Space Model for Multi-View 3D Object Detection, [Paper]

Diffusion

(arXiv 2024.03) ZigMa: Zigzag Mamba Diffusion Model, [Paper],[Code]
(arXiv 2024.05) DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis, [Paper],[Code]
(arXiv 2024.05) Scaling Diffusion Mamba with Bidirectional SSMs for Efficient Image and Video Generation, [Paper]
(arXiv 2024.06) Dimba: Transformer-Mamba Diffusion Models, [Paper],[Code]
(arXiv 2024.08) LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba, [Paper]
(arXiv 2024.09) Mamba Policy: Towards Efficient 3D Diffusion Policy with Hybrid Selective State Models, [Paper],[Code]
(arXiv 2024.11) DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation, [Paper],[Code]

Domain

(arXiv 2024.04) DGMamba: Domain Generalization via Generalized State Space Model, [Paper],[Code]

Enhancement

(arXiv 2024.04) MambaUIE&SR: Unraveling the Ocean's Secrets with Only 2.8 FLOPs, [Paper],[Code]
(arXiv 2024.05) Retinexmamba: Retinex-based Mamba for Low-light Image Enhancement, [Paper],[Code]
(arXiv 2024.05) WaterMamba: Visual State Space Model for Underwater Image Enhancement, [Paper]
(arXiv 2024.05) MambaLLIE: Implicit Retinex-Aware Low Light Enhancement with Global-then-Local State Space, [Paper]
(arXiv 2024.06) LLEMamba: Low-Light Enhancement via Relighting-Guided Mamba with Deep Unfolding Network, [Paper]
(arXiv 2024.06) PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement, [Paper],[Code]
(arXiv 2024.07) RESVMUNetX: A Low-Light Enhancement Network Based on VMamba, [Paper]
(arXiv 2024.08) Wave-Mamba: Wavelet State Space Model for Ultra-High-Definition Low-Light Image Enhancement, [Paper],[Code]
(arXiv 2024.08) ExpoMamba: Exploiting Frequency SSM Blocks for Efficient and Effective Image Enhancement, [Paper],[Code]
(arXiv 2024.08) O-Mamba: O-shape State-Space Model for Underwater Image Enhancement, [Paper],[Code]
(arXiv 2024.09) Retinex-RAWMamba: Bridging Demosaicing and Denoising for Low-Light RAW Image Enhancement, [Paper]
(arXiv 2024.09) Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement, [Paper],[Code]

Event Cameras

(arXiv 2024.02) State Space Models for Event Cameras, [Paper]
(arXiv 2024.04) MambaPupil: Bidirectional Selective Recurrent model for Event-based Eye tracking, [Paper]
(arXiv 2024.09) Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration, [Paper],[Code]

Face

(arXiv 2024.05) FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space, [Paper],[Code]
(arXiv 2024.09) Mamba-Enhanced Text-Audio-Video Alignment Network for Emotion Recognition in Conversations, [Paper]

Few-Shot

(arXiv 2024.07) Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning, [Paper],[Code]

Fusion

(arXiv 2024.04) FusionMamba: Efficient Image Fusion with State Space Model, [Paper]
(arXiv 2024.04) MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion, [Paper]
(arXiv 2024.04) FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba, [Paper]
(arXiv 2024.04) A Novel State Space Model with Local Enhancement and State Sharing for Image Fusion, [Paper]
(arXiv 2024.06) S4Fusion: Saliency-aware Selective State Space Model for Infrared Visible Image Fusion, [Paper]
(arXiv 2024.09) Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion, [Paper]
(arXiv 2024.09) Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion, [Paper]

Generation

(arXiv 2024.06) MVGamba: Unify 3D Content Generation as State Space Sequence Modeling, [Paper]
(arXiv 2024.08) Scalable Autoregressive Image Generation with Mamba, [Paper],[Code]

Gesture

(arXiv 2024.03) MambaTalk: Efficient Holistic Gesture Synthesis with Selective State Space Models, [Paper]

Graph

(arXiv 2024.01) Graph-Mamba: Towards Long-Range Graph Sequence Modeling with Selective State Spaces, [Paper],[Code]
(arXiv 2024.02) Graph Mamba: Towards Learning on Graphs with State Space Models, [Paper],[Code]

Hyperspectral

(arXiv 2024.04) HSIMamba: Hyperspectral Imaging Efficient Feature Learning with Bidirectional State Space for Classification, [Paper]
(arXiv 2024.04) SpectralMamba: Efficient Mamba for Hyperspectral Image Classification, [Paper],[Code]
(arXiv 2024.04) HSIDMamba: Exploring Bidirectional State-Space Models for Hyperspectral Denoising, [Paper],[Code]
(arXiv 2024.05) Spectral-Spatial Mamba for Hyperspectral Image Classification, [Paper]
(arXiv 2024.05) S2Mamba: A Spatial-spectral State Space Model for Hyperspectral Image Classification, [Paper],[Code]
(arXiv 2024.05) SSUMamba: Spatial-Spectral Selective State Space Model for Hyperspectral Image Denoising, [Paper],[Code]
(arXiv 2024.05) Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification, [Paper],[Code]
(arXiv 2024.06) DualMamba: A Lightweight Spectral-Spatial Mamba-Convolution Network for Hyperspectral Image Classification, [Paper]
(arXiv 2024.07) HTD-Mamba: Efficient Hyperspectral Target Detection with Pyramid State Space Model, [Paper],[Code]
(arXiv 2024.07) GraphMamba: An Efficient Graph Structure Learning Vision Mamba for Hyperspectral Image Classification, [Paper],[Code]
(arXiv 2024.08) Spatial-Spectral Morphological Mamba for Hyperspectral Image Classification, [Paper],[Code]
(arXiv 2024.08) WaveMamba: Spatial-Spectral Wavelet Mamba for Hyperspectral Image Classification, [Paper]
(arXiv 2024.08) Multi-head Spatial-Spectral Mamba for Hyperspectral Image Classification, [Paper],[Code]
(arXiv 2024.10) IGroupSS-Mamba: Interval Group Spatial-Spectral Mamba for Hyperspectral Image Classification, [Paper]

Inpainting

(arXiv 2024.07) MxT: Mamba x Transformer for Image Inpainting, [Paper]
(arXiv 2024.11) SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM, [Paper],[Code]

Knowledge Distillation

(arXiv 2024.09) Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation, [Paper]

LLM

(arXiv 2024.03) DenseMamba: State Space Models with Dense Hidden Connection for Efficient Large Language Models, [Paper],[Code]
(arXiv 2024.05) Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models, [Paper],[Code]
(arXiv 2024.07) ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2, [Paper]
(arXiv 2024.09) Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling, [Paper],[Code]

Medical

(arXiv 2024.01) U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation, [Paper], [Code]
(arXiv 2024.01) SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation, [Paper], [Code]
(arXiv 2024.01) Vivim: a Video Vision Mamba for Medical Video Object Segmentation, [Paper], [Code]
(arXiv 2024.01) MambaMorph: a Mamba-based Backbone with Contrastive Feature Learning for Deformable MR-CT Registration, [Paper], [Code]
(arXiv 2024.02) VM-UNet: Vision Mamba UNet for Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.02) nnMamba: 3D Biomedical Image Segmentation, Classification and Landmark Detection with State Space Model,[Paper],[Code]
(arXiv 2024.02) FD-Vision Mamba for Endoscopic Exposure Correction, [Paper]
(arXiv 2024.02) Semi-Mamba-UNet: Pixel-Level Contrastive Cross-Supervised Visual Mamba-based UNet for Semi-Supervised Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.02) Marrying Perona Malik Diffusion with Mamba for Efficient Pediatric Echocardiographic Left Ventricular Segmentation,[[Paper]
(arXiv 2024.02) Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation,[Paper],[Code]
(arXiv 2024.03) MedMamba: Vision Mamba for Medical Image Classification,[Paper],[Code]
(arXiv 2024.03) MambaMIR: An Arbitrary-Masked Mamba for Joint Medical Image Reconstruction and Uncertainty Estimation，[Paper],[Code]
(arXiv 2024.03) MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models,[Paper]
(arXiv 2024.03) LightM-UNet: Mamba Assists in Lightweight UNet for Medical Image Segmentation,[Paper],[Code]
(arXiv 2024.03) MambaMIL: Enhancing Long Sequence Modeling with Sequence Reordering in Computational Pathology,[Paper],[Code]
(arXiv 2024.03) VM-UNET-V2 Rethinking Vision Mamba UNet for Medical Image Segmentation,[Paper],[Code]
(arXiv 2024.03) MD-Dose: A Diffusion Model based on the Mamba for Radiotherapy Dose Prediction,[Paper],[Code]
(arXiv 2024.03) Large Window-based Mamba UNet for Medical Image Segmentation: Beyond Convolution and Self-attention,[Paper],[Code]
(arXiv 2024.03) ProMamba: Prompt-Mamba for polyp segmentation,[Paper],[Code]
(arXiv 2024.03) H-vmunet: High-order Vision Mamba UNet for Medical Image Segmentation,[Paper],[Code]
(arXiv 2024.03) Rotate to Scan: UNet-like Mamba with Triplet SSM Module for Medical Image Segmentation,[Paper]
(arXiv 2024.03) Integrating Mamba Sequence Model and Hierarchical Upsampling Network for Accurate Semantic Segmentation of Multiple Sclerosis Legion,[Paper]
(arXiv 2024.03) UltraLight VM-UNet: Parallel Vision Mamba Significantly Reduces Parameters for Skin Lesion Segmentation,[Paper],[Code]
(arXiv 2024.04) T-Mamba: Frequency-Enhanced Gated Long-Range Dependency for Tooth 3D CBCT Segmentation,[Paper],[Code]
(arXiv 2024.04) ViM-UNet: Vision Mamba for Biomedical Segmentation,[Paper],[Code]
(arXiv 2024.04) SurvMamba: State Space Model with Multi-grained Multi-modal Interaction for Survival Prediction,[Paper]
(arXiv 2024.04) Vim4Path: Self-Supervised Vision Mamba for Histopathology Images,[Paper],[Code]
(arXiv 2024.04) Sparse Reconstruction of Optical Doppler Tomography Based on State Space Model,[Paper]
(arXiv 2024.05) AC-MAMBASEG: An adaptive convolution and Mamba-based architecture for enhanced skin lesion segmentation,[Paper],[Code]
(arXiv 2024.05) HC-Mamba: Vision MAMBA with Hybrid Convolutional Techniques for Medical Image Segmentation,[Paper]
(arXiv 2024.05) VM-DDPM: Vision Mamba Diffusion for Medical Image Synthesis,[Paper]
(arXiv 2024.05) I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling,[Paper]
(arXiv 2024.05) MUCM-Net: A Mamba Powered UCM-Net for Skin Lesion Segmentation,[Paper],[Code]
(arXiv 2024.06) MHS-VM: Multi-Head Scanning in Parallel Subspacesfor Vision Mamba,[Paper],[Code]
(arXiv 2024.06) Vision Mamba: Cutting-Edge Classification of Alzheimer's Disease with 3D MRI Scans,[Paper]
(arXiv 2024.06) Soft Masked Mamba Diffusion Model for CT to MRI Conversion,[Paper],[Code]
(arXiv 2024.06) MMR-Mamba: Multi-Contrast MRI Reconstruction with Mamba and Spatial-Frequency Information Fusion,[Paper]
(arXiv 2024.07) Vision Mamba for Classification of Breast Ultrasound Images,[Paper]
(arXiv 2024.07) SliceMamba for Medical Image Segmentation,[Paper]
(arXiv 2024.07) SR-Mamba: Effective Surgical Phase Recognition with State Space Model,[Paper],[Code]
(arXiv 2024.07) GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI,[Paper],[Code]
(arXiv 2024.08) PhysMamba: Leveraging Dual-Stream Cross-Attention SSD for Remote Physiological Measurement,[Paper]
(arXiv 2024.08) HMT-UNet: A hybird Mamba-Transformer Vision UNet for Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.08) Costal Cartilage Segmentation with Topology Guided Deformable Mamba: Method and Benchmark, [Paper]
(arXiv 2024.08) LoG-VMamba: Local-Global Vision Mamba for Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.08) ShapeMamba-EM: Fine-Tuning Foundation Model with Local Shape Descriptors and Mamba Blocks for 3D EM Image Segmentation, [Paper]
(arXiv 2024.08) SpineMamba: Enhancing 3D Spinal Segmentation in Clinical Imaging through Residual Visual Mamba Layers and Shape Priors, [Paper]
(arXiv 2024.09) Serp-Mamba: Advancing High-Resolution Retinal Vessel Segmentation with Selective State-Space Model, [Paper]
(arXiv 2024.09) MpoxMamba: A Grouped Mamba-based Lightweight Hybrid Network for Mpox Detection, [Paper],[Code]
(arXiv 2024.09) Microscopic-Mamba: Revealing the Secrets of Microscopic Images with Just 4M Parameters, [Paper],[Code]
(arXiv 2024.09) OCTAMamba: A State-Space Model Approach for Precision OCTA Vasculature Segmentation, [Paper],[Code]
(arXiv 2024.09) Learning Brain Tumor Representation in 3D High-Resolution MR Images via Interpretable State Space Models, [Paper],[Code]
(arXiv 2024.09) MedSegMamba: 3D CNN-Mamba Hybrid Architecture for Brain Segmentation, [Paper]
(arXiv 2024.09) Tri-Plane Mamba: Efficiently Adapting Segment Anything Model for 3D Medical Images, [Paper],[Code]
(arXiv 2024.09) SkinMamba: A Precision Skin Lesion Segmentation Architecture with Cross-Scale Global State Modeling and Frequency Boundary Guidance, [Paper],[Code]
(arXiv 2024.09) MambaClinix: Hierarchical Gated Convolution and Mamba-Based U-Net for Enhanced 3D Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.09) MambaRecon: MRI Reconstruction with Structured State Space Models, [Paper],[Code]
(arXiv 2024.09) SPRMamba: Surgical Phase Recognition for Endoscopic Submucosal Dissection with Mamba, [Paper]
(arXiv 2024.09) PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba, [Paper],[Code]
(arXiv 2024.09) Classification of Gleason Grading in Prostate Cancer Histopathology Images Using Deep Learning Techniques: YOLO, Vision Transformers, and Vision Mamba, [Paper]
(arXiv 2024.10) MedVisionLlama: Leveraging Pre-Trained Large Language Model Layers to Enhance Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.10) SlimSeiz: Efficient Channel-Adaptive Seizure Prediction Using a Mamba-Enhanced Network, [Paper],[Code]
(arXiv 2024.10) Taming Mambas for Voxel Level 3D Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.10) R2Gen-Mamba: A Selective State Space Model for Radiology Report Generation, [Paper],[Code]
(arXiv 2024.10) Advancing Efficient Brain Tumor Multi-Clas Classification -- New Insights from the Vision Mamba Model in Transfer Learning, [Paper]
(arXiv 2024.10) MLLA-UNet: Mamba-like Linear Attention in an Efficient U-Shape Model for Medical Image Segmentation, [Paper],[Code]
(arXiv 2024.11) MedSora: Optical Flow Representation Alignment Mamba Diffusion Model for Medical Video Generation, [Paper],[Code]
(arXiv 2024.11) KAN-Mamba FusionNet: Redefining Medical Image Segmentation with Non-Linear Modeling, [Paper]

Mesh

(arXiv 2024.05) HandSSCA: 3D Hand Mesh Reconstruction with State Space Channel Attention from RGB images,[Paper]

MIL

(arXiv 2024.08) Mamba2MIL: State Space Duality Based Multiple Instance Learning for Computational Pathology,[Paper], [Code]

Mixture of Experts

(arXiv 2024.01) MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts, [Paper]
(arXiv 2024.01) BlackMamba: Mixture of Experts for State-Space Models, [Paper], [Code]

Motion

(arXiv 2024.03) Motion Mamba: Efficient and Long Sequence Motion Generation with Hierarchical and Bidirectional Selective SSM, [Paper], [Code]
(arXiv 2024.04) Text-controlled Motion Mamba: Text-Instructed Temporal Grounding of Human Motion, [Paper]
(arXiv 2024.04) HumMUSS: Human Motion Understanding using State Space Models, [Paper]
(arXiv 2024.04) MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model, [Paper], [Code]
(arXiv 2024.05) SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion, [Paper]
(arXiv 2024.07) InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation, [Paper], [Code]
(arXiv 2024.08) Pedestrian Motion Prediction Using Transformer-based Behavior Clustering and Data-Driven Reachability Analysis, [Paper]
(arXiv 2024.11) KMM: Key Frame Mask Mamba for Extended Motion Generation, [Paper], [Code]

Multimodal

(arXiv 2024.03) VL-Mamba: Exploring State Space Models for Multimodal Learning，[Paper],[Code]
(arXiv 2024.09) DepMamba: Progressive Fusion Mamba for Multimodal Depression Detection，[Paper],[Code]

Multi-Task

(arXiv 2024.07) MTMamba: Enhancing Multi-Task Dense Scene Understanding by Mamba-Based Decoders，[Paper],[Code]
(arXiv 2024.08) MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders，[Paper],[Code]

OCR

(arXiv 2024.01) LOCOST: State-Space Models for Long Document Abstractive Summarization, [Paper],[Code]
(arXiv 2024.10) Adaptive Multi Scale Document Binarisation Using Vision Mamba, [Paper]

OOD

(arXiv 2024.05) CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation，[Paper],[Code]

Point Cloud

(arXiv 2024.02) PointMamba: A Simple State Space Model for Point Cloud Analysis, [Paper],[Code]
(arXiv 2024.02) Point Could Mamba: Point Cloud Learning via State Space Model, [Paper],[Code]
(arXiv 2024.03) Point Mamba: A Novel Point Cloud Backbone Based on State Space Model with Octree-Based Ordering Strategy, [Paper],[Code]
(arXiv 2024.04) 3DMambaComplete: Exploring Structured State Space Model for Point Cloud Completion, [Paper]
(arXiv 2024.04) Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model, [Paper]
(arXiv 2024.05) PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis, [Paper],[Code]
(arXiv 2024.06) PointABM:Integrating Bidirectional State Space Model with Multi-Head Self-Attention for Point Cloud Analysis, [Paper]
(arXiv 2024.06) Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection, [Paper],[Code]
(arXiv 2024.06) Mamba24/8D: Enhancing Global Interaction in Point Clouds via State Space Model, [Paper]
(arXiv 2024.07) Serialized Point Mamba: A Serialized Point Cloud Mamba Segmentation Model, [Paper]
(arXiv 2024.07) PointDGMamba: Domain Generalization of Point Cloud Classification via Generalized State Space Model, [Paper]
(arXiv 2024.08) MambaPlace:Text-to-Point-Cloud Cross-Modal Place Recognition with Attention Mamba Mechanisms, [Paper],[Code]
(arXiv 2024.10) MBPU: A Plug-and-Play State Space Model for Point Cloud Upsamping with Fast Point Rendering, [Paper]
(arXiv 2024.11) NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs, [Paper]
(arXiv 2024.11) STREAM: A Universal State-Space Model for Sparse Geometric Data, [Paper]

Pose

(arXiv 2024.08) Pose Magic: Efficient and Temporally Consistent Human Pose Estimation with a Hybrid Mamba-GCN Network, [Paper]
(arXiv 2024.08) PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model, [Paper]

Recognition

(arXiv 2024.05) MemoryMamba: Memory-Augmented State Space Model for Defect Recognition, [Paper]
(arXiv 2024.05) OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition, [Paper]
(arXiv 2024.07) An Empirical Study of Mamba-based Pedestrian Attribute Recognition, [Paper],[Code]

Reconstruction

(arXiv 2024.03) Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction, [Paper]
(arXiv 2024.05) GMSR:Gradient-Guided Mamba for Spectral Reconstruction from RGB Images, [Paper],[Code]
(arXiv 2024.11) M3D: Dual-Stream Selective State Spaces and Depth-Driven Framework for High-Fidelity Single-View 3D Reconstruction, [Paper],[Code]

Referring

(arXiv 2024.03) ReMamber: Referring Image Segmentation with Mamba Twister, [Paper]
(arXiv 2024.10) MambaPainter: Neural Stroke-Based Rendering in a Single Step, [Paper],[Code]

Registration

(arXiv 2024.04) VMambaMorph: a Visual Mamba-based Framework with Cross-Scan Module for Deformable 3D Image Registration, [Paper],[Code]
(arXiv 2024.07) Mamba? Catch The Hype Or Rethink What Really Helps for Image Registration, [Paper],[Code]
(arXiv 2024.11) MambaReg: Mamba-Based Disentangled Convolutional Sparse Coding for Unsupervised Deformable Multi-Modal Image Registration, [Paper]
(arXiv 2024.11) XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration, [Paper],[Code]

Remote Sensing

(arXiv 2024.03) RSMamba: Remote Sensing Image Classification with State Space Model, [Paper],[Code]
(arXiv 2024.04) RS-Mamba for Large Remote Sensing Image Dense Prediction, [Paper],[Code]
(arXiv 2024.04) RS3Mamba: Visual State Space Model for Remote Sensing Images Semantic Segmentation, [Paper],[Code]
(arXiv 2024.04) Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model, [Paper],[Code]
(arXiv 2024.04) ChangeMamba: Remote Sensing Change Detection with Spatio-Temporal State Space Model, [Paper],[Code]
(arXiv 2024.05) RSCaMa: Remote Sensing Image Change Captioning with State Space Model, [Paper],[Code]
(arXiv 2024.05) Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution, [Paper]
(arXiv 2024.05) Rethinking Scanning Strategies with Vision Mamba in Semantic Segmentation of Remote Sensing Imagery: An Experimental Study, [Paper]
(arXiv 2024.05) CM-UNet: Hybrid CNN-Mamba UNet for Remote Sensing Image Semantic Segmentation, [Paper],[Code]
(arXiv 2024.06) CDMamba: Remote Sensing Image Change Detection with Mamba, [Paper],[Code]
(arXiv 2024.06) HDMba: Hyperspectral Remote Sensing Imagery Dehazing with State Space Model, [Paper],[Code]
(arXiv 2024.06) PyramidMamba: Rethinking Pyramid Feature Fusion with Selective Space State Model for Semantic Segmentation of Remote Sensing Imagery, [Paper],[Code]
(arXiv 2024.07) A Mamba-based Siamese Network for Remote Sensing Change Detection, [Paper],[Code]
(arXiv 2024.07) DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing, [Paper],[Code]
(arXiv 2024.08) UNetMamba: Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images, [Paper],[Code]
(arXiv 2024.09) UV-Mamba: A DCN-Enhanced State Space Model for Urban Village Boundary Identification in High-Resolution Remote Sensing Images, [Paper]
(arXiv 2024.09) PPMamba: A Pyramid Pooling Local Auxiliary SSM-Based Model for Remote Sensing Image Semantic Segmentation, [Paper]
(arXiv 2024.09) SITSMamba for Crop Classification based on Satellite Image Time Series, [Paper],[Code]
(arXiv 2024.10) RemoteDet-Mamba: A Hybrid Mamba-CNN Network for Multi-modal Object Detection in Remote Sensing Images, [Paper]

Restoration

(arXiv 2024.02) A Simple Baseline for Image Restoration with State-Space Model, [Paper],[Code]
(arXiv 2024.03) VmambaIR: Visual State Space Model for Image Restoration, [Paper],[Code]
(arXiv 2024.03) Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models, [Paper]
(arXiv 2024.08) Multi-Scale Representation Learning for Image Restoration with State-Space Model, [Paper]

Retrieval

(arXiv 2024.08) MUSE: Mamba is Efficient Multi-scale Learner for Text-video Retrieval, [Paper],[Code]

Robot

(arXiv 2024.06) RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation, [Paper],[Code]
(arXiv 2024.08) OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model, [Paper],[Code]
(arXiv 2024.09) GraspMamba: A Mamba-based Language-driven Grasp Detection Framework with Hierarchical Feature Learning, [Paper]
(arXiv 2024.11) VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion, [Paper]

Salient

(arXiv 2024.10) MambaSOD: Dual Mamba-Driven Cross-Modal Fusion Network for RGB-D Salient Object Detection, [Paper],[Code]
(arXiv 2024.11) LFSamba: Marry SAM with Mamba for Light Field Salient Object Detection, [Paper],[Code]

Self supervised learning

(arXiv 2024.08) MambaMIM: Pre-training Mamba with State Space Token-interpolation, [Paper],[Code]

Semantic Segmentation

(arXiv 2024.04) Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation, [Paper],[Code]
(arXiv 2024.06) Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces, [Paper]
(arXiv 2024.07) Mamba meets crack segmentation, [Paper]

Shadow

(arXiv 2024.11) ShadowMamba: State-Space Model with Boundary-Region Selective Scan for Shadow Removal, [Paper]

Spatiotemporal Forecasting

(arXiv 2024.03) VMRNN: Integrating Vision Mamba and LSTM for Efficient and Accurate Spatiotemporal Forecasting, [Paper],[Code]

Speech

(arXiv 2024.10) CleanUMamba: A Compact Mamba Network for Speech Denoising using Channel Pruning, [Paper],[Code]
(arXiv 2024.11) SAV-SE: Scene-aware Audio-Visual Speech Enhancement with Selective State Space Model, [Paper],[Code]

State Space Model (SSM)

(NeurIPS 2020) HiPPO: Recurrent Memory with Optimal Polynomial Projections, [Paper],[Code]
(ICLR 2022) Efficiently Modeling Long Sequences with Structured State Spaces, [Paper],[Code]
(ICLR 2023) Hungry Hungry Hippos: Toward Language Modeling with State Space Models, [Paper],[Code]
(arXiv 2024.01) MambaByte: Token-free Selective State Space Model, [Paper],[Code]
(arXiv 2024.02) Can Mamba Learn How to Learn? A Comparative Study on In-Context Learning Tasks, [Paper]
(arXiv 2024.02) Hierarchical State Space Models for Continuous Sequence-to-Sequence Modeling, [Paper],[Code]
(arXiv 2024.05) MambaOut: Do We Really Need Mamba for Vision, [Paper],[Code]
(arXiv 2024.07) VSSD: Vision Mamba with Non-Casual State Space Duality, [Paper],[Code]
(arXiv 2024.08) DeMansia: Mamba Never Forgets Any Tokens, [Paper],[Code]
(arXiv 2024.09) Saliency Unification through Mamba for Visual Attention Modeling, [Paper],[Code]

Style Transfer

(arXiv 2024.05) StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer, [Paper]
(arXiv 2024.09) Mamba-ST: State Space Model for Efficient Style Transfer, [Paper],[Code]

Super-Resolution

(arXiv 2024.05) DVMSR: Distillated Vision Mamba for Efficient Super-Resolution, [Paper],[Code]
(arXiv 2024.05) IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model, [Paper],[Code]
(arXiv 2024.06) Mamba-based Light Field Super-Resolution with Efficient Subspace Scanning, [Paper]
(arXiv 2024.07) Self-Prior Guided Mamba-UNet Networks for Medical Image Super-Resolution, [Paper]
(arXiv 2024.07) Deform-Mamba Network for MRI Super-Resolution, [Paper]
(arXiv 2024.08) QMambaBSR: Burst Image Super-Resolution with Query State Space Model, [Paper]
(arXiv 2024.08) MambaCSR: Dual-Interleaved Scanning for Compressed Image Super-Resolution With SSMs, [Paper],[Code]
(arXiv 2024.10) Hi-Mamba: Hierarchical Mamba for Efficient Image Super-Resolution, [Paper]
(arXiv 2024.11) Arbitrary-Scale Super-Resolution via Scaleable State Space Model, [Paper],[Code]

Tracking

(arXiv 2024.05) Mamba-FETrack: Frame-Event Tracking via State Space Model, [Paper],[Code]
(arXiv 2024.08) RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba, [Paper]
(arXiv 2024.08) MambaEVT: Event Stream based Visual Object Tracking using State Space Model, [Paper],[Code]
(arXiv 2024.08) MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model, [Paper]
(arXiv 2024.09) FMRFT: Fusion Mamba and DETR for Query Time Sequence Intersection Fish Tracking, [Paper]
(arXiv 2024.10) Samba: Synchronized Set-of-Sequences Modeling for Multiple Object Tracking, [Paper],[Code]
(arXiv 2024.11) MambaXCTrack: Mamba-based Tracker with SSM Cross-correlation and Motion Prompt for Ultrasound Needle Tracking, [Paper]

TTA

(arXiv 2024.07) Test-Time Adaptation with State-Space Models, [Paper]

Video

(arXiv 2024.03) VideoMamba: State Space Model for Efficient Video Understanding, [Paper],[Code]
(arXiv 2024.03) Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding, [Paper],[Code]
(arXiv 2024.03) SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces, [Paper],[Code]
(arXiv 2024.04) SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding, [Paper]
(arXiv 2024.05) Matten: Video Generation with Mamba-Attention, [Paper]
(arXiv 2024.05) MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models, [Paper]
(arXiv 2024.06) VideoMambaPro: A Leap Forward for Mamba in Video Understanding, [Paper],[Code]
(arXiv 2024.07) VFIMamba: Video Frame Interpolation with State Space Models, [Paper]
(arXiv 2024.07) VideoMamba: Spatio-Temporal Selective State Space Model, [Paper],[Code]
(arXiv 2024.07) DemMamba: Alignment-free Raw Video Demoireing with Frequency-assisted Spatio-Temporal Mamba, [Paper]

Zero-Shot Learning

(arXiv 2024.08) ZeroMamba: Exploring Visual State Space Model for Zero-Shot Learning, [Paper],[Code]

Other

(arXiv 2024.02) Pan-Mamba: Effective pan-sharpening with State Space Model, [Paper],[Code]
(arXiv 2024.04) InsectMamba: Insect Pest Classification with State Space Model, [Paper]
(arXiv 2024.08) MambaDS: Near-Surface Meteorological Field Downscaling with Topography Constrained Selective State Space Modeling, [Paper]
(arXiv 2024.08) ColorMamba: Towards High-quality NIR-to-RGB Spectral Translation with Mamba, [Paper],[Code]
(arXiv 2024.10) ECMamba: Consolidating Selective State Space Model with Retinex Guidance for Efficient Multiple Exposure Correction, [Paper],[Code]
(arXiv 2024.11) RAWMamba: Unified sRGB-to-RAW De-rendering With State Space Model, [Paper]

Contact & Feedback

If you have any suggestions about this project, feel free to contact me.

[e-mail: yzhangcst[at]gmail.com]

Name		Name	Last commit message	Last commit date
Latest commit History 248 Commits
README.md		README.md

Yangzhangcst/Mamba-in-CV

Folders and files

Latest commit

History

Repository files navigation