1.png


近日实验室在国际期刊IEEE Journal of Oceanic Engineering(JCR Q1, 影响因子4.5)上发表以“UIEFormer: Lightweight Vision Transformer for Underwater Image Enhancement”为题的研究性论文。曲老师为论文的通讯作者和第一作者22级硕士生曹翔宇为论文的学生第一作者。

该工作基于流行的传统图像去雾框架DehazeFormer,考虑到水下图像增强任务的特点,对网络进行了针对性改进,提出了UIEFormer,为水下图像增强开辟了一种基于视觉Transformer的轻量级学习方法。

该工作获得了国家自然科学基金、深圳市“鹏城孔雀计划”、北京市“青年人才托举工程”、深圳市高等院校稳定资助面上项目、清华大学深圳国际研生院交叉科研创新基金/科研启动基金/海外科研合作基金、江淮前沿技术协同创新中心追梦基金、教育部产学合作协同育人项目和深圳市海洋生态前沿技术重点实验室等项目的资助。


01

研究背景

水下图像蕴含着丰富的视觉信息,对于人类了解水下环境并与之互动具有重要意义。然而,由于水对不同波长的光有不同程度的吸收,加上水中的微小颗粒和光散射,水下图像经常出现色彩偏差、对比度低和模糊等质量问题。因此,通过应用水下图像增强方法来解决这些缺陷对于目标检测、三维场景重建和潜水器导航等水下任务至关重要。

随着人工智能的快速发展,基于神经网络架构的数据驱动的水下图像增强方法能获取复杂水下场景的特征并从中学习,在性能层面显示出巨大的进步潜力。然而,由于真实图像采集的不便和水下图像合成方法的不成熟,现有的水下图像数据集仍然存在图像数量和质量不足的问题,这阻碍了数据驱动方法的进一步发展。此外,大多数方法的网络结构和损失函数的设计与水下图像特征的结合都很有限。


02

文章概述

图1展示了UIEFormer的架构,该架构基于流行的传统图像去雾化框架DehazeFormer,并针对原DehazeFormer在处理水下图像时存在的不足进行了若干改进。

2.png

在patch unembedding模块中,原始DehazeFormer使用PixelShuffle作为上采样策略。由于PixelShuffle通过将不同的特征通道与上采样因子交织来生成新的特征图,因此容易在低信息密度区域造成棋盘伪像,如图2所示。针对这一问题,文章设计了一种重新设计的patch unembedding模块,首先对特征图进行差值上采样,随后使用卷积操作调整特征通道数。这一改进确保了patch unembedding模块在低信息密度区域也能保持图像的保真度和一致性,从而提高了图像处理pipeline的整体稳健性和有效性。

3.png

视觉Transformer在训练过程中会逐渐识别出不包含重要内容的tokens,然后利用这些tokens的位置来存储高级语义信息,使这些tokens包含较少的局部细节信息和较多的全局信息。然而,对于水下图像增强这样的低级视觉任务来说,这样做不利于生成图像的质量,而且很容易在图像背景和前景之间的过渡处引入源自高级特征(如前景物体的轮廓)的人工痕迹。我们将这些伪影称为 "特征尺度伪影"。本文在U型网络的下采样阶段为每个Transformer块添加一定比例的额外特征通道,从而减轻特征尺度伪影;在上采样阶段,上述额外特征通道会在每个变换模块输出后被丢弃。这样可以确保额外的特征通道不受训练任务的限制,使它们能够充当保存无用全局特征的寄存器,从而更利于其他通道保存有用特征。

此外,考虑到影响水下图像质量的因素的复杂性,本文提出了一种复合损失函数,从像素点、颜色样式和高级特征方面恢复图像质量。

本文在UIEB等水下图像数据集上进行了广泛的对比实验和消融实验,证实了该算法的性能。

4.png
5.png
6.png

此外,本文将该算法应用于水下特征点匹配和水下图像语义分割两个下游任务,充分证明了该算法的实用性。

7.png
8.png

03

主要创新点

1)文章改进了网络中的上采样策略,以避免重建图像中的棋盘伪影,尤其是在图像背景等低信息密度区域。

2)文章提出一种增加额外特征通道的策略,以分离对水下图像增强任务不重要的高级图像特征,从而消除因特征标记局部信息丢失而造成的伪影。

3)文章提出了一种综合损失函数,它整合了每像素损失、感知损失和色彩损失,旨在关注重建图像的高级特征和色彩风格。

4)为了证明上述方法的有效性和实用价值,进行了广泛的对比和消融研究。


论文链接:

https://ieeexplore.ieee.org/document/10884792


概况
招生招聘
留言板
地址:清华大学深圳国际研究生院
Email:juntian.qu@sz.tsinghua.edu.cn