U²-Net：使用显著性物体检测来生成真实的铅笔肖像画

铅笔素描肖像生成已出现作为Alberta大学的U²-Net的一个有趣和流行的新应用。自用于显著目标检测的新的深度网络架构开源以来，该项目的GitHub页面在三天内收到了超过2400颗星。在计算机视觉领域中，从自然场景中检测和分割视觉上最吸引人的目标的过程称为显著目标检测(SOD)。现有的大多数SOD网络都有类似的设计，重点利用骨干网AlexNet、VGG、ResNet、ResNeXt、DenseNet等提取的深度特征。然而，这些骨干网络最初是为图像分类任务而建立的，因此它们提取代表语义意义的特征，而不是对显著目标检测至关重要的局部细节或全局参考信息。这样的网络也往往需要在ImageNet上进行低效的预训练。 U²-Net是一种简单而强大的深度网络架构，采用了新颖的两层嵌套U型结构，旨在解决这些问题。提出的残差块(RSU)具有各种不同大小的感受野的混合，使它能够更好地捕捉不同尺度上的上下文信息。RSU还使用了池化操作来增加整体架构的深度，而不会显著增加计算成本。

在他们的论文中，研究人员介绍了RSU和用它们构建的嵌套U型结构，并描述了网络的监督策略和训练损失。现有的卷积块和提出的残差U型块RSU: (a)平面卷积块PLN， (b)Residual-like块RES，©Inception-like块INC， (d)Dense-like块DSE和(e)我们提出的残差U型块RSU RSU主要由三个部分组成：输入卷积层、L高度的U-Net-like的对称encoder-decoder结构、通过求和融合局部和多尺度特征的残差连接。 Residual块和RSU的比较 RSU与原始残差块的主要区别在于，RSU用U-Net-like结构代替了普通的单流卷积，用加权层变换的局部特征代替了原始特征。和其他的特征抽取模块的计算量对比该团队指出，RSU的计算成本相对较小。他们将此归因于它的U型结构，并且大多数计算操作都应用于下采样的特征映射。提出的U2-Net结构的图解基于RSU，研究人员开发了U²-Net，一种用于显著性目标检测的新型堆叠U形结构。U²-Net包括一个6级编码器，一个5级解码器，一个显著性图融合模块附加到解码器级和最后一个编码器。总体而言，U²-Net设计构建了一个具有丰富多尺度特性和低计算和内存成本的深度架构。此外，由于U²-Net架构仅建立在RSU块上，不使用任何预先训练的骨干网进行图像分类处理，可以灵活、轻松地适应不同的工作环境，性能损失最小。为了训练U²-Net，研究人员使用最大、最常用的显著目标检测数据集DUTS-TR，水平翻转其图像，共获得21,106张训练图像。采用DUTOMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S和SOD等6个显著性目标检测基准公共数据集进行评估。不同blocks、architectures及backbones的消融研究结果。“PLN”、“RES”、“DSE”、“INC”、“PPM”和“RSU”分别表示plain卷积块、residual块、dense块、inception块、 pyramid pooling模块和提出的residual U-block块在模型大小方面，比较本文方法与DUT-OMRON、DUTS-TE、HKU-IS上的20种SOTA方法。红色、绿色和蓝色代表最好、第二和第三好的表现与ECSSD、PASCAL-S、SOD上20种SOTA方法在模型尺寸上的比较在实验中，所提出的模型在定性和定量上与20种SOTA SOD方法的性能比较。读者想实验肖像的应用可以通过下载u2net_portrait.pth：https://drive.google.com/file/d/1IG3HdpcRiDoWNookbncQjeaPN28t90yW/view?usp=sharing并运行APDrawingGAN测试集。你也可以准备自己的图像，大小需要接近或超过512 x512，最好是相对清晰的背景。不过，传统的在画布上油画的肖像似乎不太管用。