SAHI: 优化目标检测网络中的注意力机制

释放双眼，带上耳机，听听看~！

了解SAHI如何优化目标检测网络中的注意力机制，提高网络鲁棒性和空间注意力，从而提高目标检测的精度。

关键词：SAHI 、注意力机制、鲁棒性、空间注意力

背景

在传统的卷积神经网络中，所有的卷积核权重都是固定的，无法根据输入图像动态调整；
但在目标检测中，由于不同目标之间的差异性和复杂性，需要网络能够自适应地关注感兴趣的区域，同时忽略背景信息。

前言

SAHI主要是为了优化目标检测网络中的注意力机制而设计的，SAHI是SahiConv2d的缩写，全称为Saliency Attentive Histological Image。

它能够自适应地调整感受野大小，从而使神经网络在处理不同尺度的目标时具有更好的性能。SAHI在卷积计算时动态地调整卷积核的权重，使其更加关注感兴趣的区域，从而提高了网络的性能。
在目标检测中，SahiConv2d可以用于替代传统的卷积操作，使得网络能够更好地适应不同的目标和场景，提高目标检测的精度和鲁棒性。

原理

SAHI的基本原理是使用视觉显著性模型，通过计算每个像素的显著性值，将显著性值高的区域定义为感兴趣区域（ROI），从而减少对不相关区域的处理，提高处理效率。

具体流程如下：
1.使用深度卷积神经网络进行图像特征提取。
2.使用全局池化层获取整个图像的特征向量。
3.使用逐像素分类的方法计算每个像素的显著性值，以获得像素级别的显著图。
4.将显著图与全局特征向量相结合，生成显著性特征图，以表征整个图像的显著性。
5.基于显著性特征图进行感兴趣区域（ROI）提取。
6.使用目标检测算法对感兴趣区域进行进一步处理。

import torch.nn.functional as F

class SahiConv2d(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True):
        super(SahiConv2d, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride=stride, padding=padding, dilation=dilation, groups=groups, bias=bias)

    def forward(self, x):
        # 生成随机的sahi mask，大小和输入张量一样
        sahi_mask = torch.randint_like(x, high=2)
        sahi_mask = sahi_mask.type(torch.float32)

        # 将sahi mask应用到输入张量中
        x = x * sahi_mask

        # 使用卷积层对sahi操作后的输入张量进行卷积
        x = self.conv(x)

        return x

实操

我们以AlexNet为模板，进行SIHI改造（在这里便于向大家展示，故而选择大家都熟悉的网络进行改造），将原有的nn.Conv2d函数替换为SahiConv2d
函数，将nn.Sequential中的nn.MaxPool2d替换为全局自适应池化层nn.AdaptiveAvgPool2d。如下所示：

import torch
import torch.nn as nn
from typing import Any

class AlexNet(nn.Module):

    def __init__(self, num_classes: int = 4) -> None:
        super(AlexNet, self).__init__()
        self.features = nn.Sequential(
            SahiConv2d(3, 64, kernel_size=11, stride=4, padding=2),
            nn.ReLU(inplace=True),
            nn.AdaptiveAvgPool2d((3, 2)),
            # nn.MaxPool2d(kernel_size=3, stride=2),
            SahiConv2d(64, 192, kernel_size=5, padding=2),
            nn.ReLU(inplace=True),
            nn.AdaptiveAvgPool2d((3, 2)),
            # nn.MaxPool2d(kernel_size=3, stride=2),
            SahiConv2d(192, 384, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            SahiConv2d(384, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            SahiConv2d(256, 256, kernel_size=3, padding=1),
            nn.ReLU(inplace=True),
            # nn.MaxPool2d(kernel_size=3, stride=2),
            nn.AdaptiveAvgPool2d((3, 2)),
        )
        self.avgpool = nn.AdaptiveAvgPool2d((6, 6))
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256 * 6 * 6, 4096),
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x


def alexnet(pretrained: bool = False, progress: bool = True, **kwargs: Any) -> AlexNet:

    model = AlexNet(**kwargs)
    if pretrained:
        pass
    return model


if __name__ == "__main__":
    x = torch.zeros(1, 3, 224, 224)
    net = alexnet(pretrained=False)
    y = net(x)
    print(y.shape)
    
>>> torch.Size([1, 4])

以上代码中，我们定义了一个名为SahiConv2d的PyTorch模块，其继承自nn.Module类，实现了对输入张量进行sahi操作的功能。具体实现方式如下：

首先，我们在构造函数中定义了一个常规的卷积层，其输入通道数、输出通道数、卷积核大小等参数可以自由设定。注意到我们没有指定该卷积层是否需要进行偏置操作（bias=True），这是因为我们将在sahi操作中使用一个随机的sahi mask来替代偏置操作。
接着，在forward函数中，我们首先生成一个与输入张量相同大小的随机二值化的sahi mask。在生成sahi mask时，我们使用了PyTorch中的randint函数，其可以在指定范围内生成随机整数张量。
然后，我们将sahi mask的数据类型转换为torch.float32，并将其应用到输入张量中，得到经过sahi操作后的输入张量。
最后，我们使用常规卷积层对经过sahi操作的输入张量进行卷积，得到卷积结果。

嵌入yolo

在YOLO（You Only Look Once）目标检测网络中，共有三个不同大小的特征图，它们分别对应着不同的检测尺度。这三个特征图分别被称为S（小）, M（中）和L（大）特征图{8.0, 16.0, 32.0}。
具体来说，这三个特征图是通过对输入图像进行下采样得到的，每个特征图都包含了一定数量的网格单元（grid cell），每个网格单元负责检测一定范围内的目标。S特征图的网格单元最小，M特征图的网格单元比S特征图大，L特征图的网格单元最大。

因此，S特征图负责检测较小的目标，L特征图负责检测较大的目标，而M特征图则负责检测中等大小的目标。这三个特征图的输出都被送入YOLO的最终分类器和回归器，从而检测图像中的目标。

例如有一小目标的数据集（小于或等于32px），那么我们必然是需要在S特征图上进行坐标回归，这个时候我们可以在S特征图上进行sahi操作，进而提高小目标的检测

结尾

需要注意的是，由于sahi mask是随机生成的，因此每次进行sahi操作时得到的结果会略有不同。此外，sahi操作虽然可以用于增强模型的鲁棒性，但也可能会对模型的性能造成一定的影响，需要根据具体应用场景进行调整。

链接：github.com/kivenyangmi…

*本文正在参加人工智能创作者扶持计划 ” *

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

SAHI: 优化目标检测网络中的注意力机制

背景

前言

原理

实操

嵌入yolo

结尾

GSConv：一种新的轻量级卷积技术

阿里云PAI与华南理工大学合作在ACL 2023上发表ConaCLIP模型蒸馏算法论文

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

背景

前言

原理

实操

嵌入yolo

结尾

GSConv：一种新的轻量级卷积技术

阿里云PAI与华南理工大学合作在ACL 2023上发表ConaCLIP模型蒸馏算法论文

SENet原理详解与代码实现

Inception深度卷积神经网络架构在ILSVRC14中的性能分析

FPN优化对目标检测性能的影响及解决方案

YOLOv3-SPP模型结构及SPP模块深度剖析