行 业 动 态

NEWS INFORMATION

详细内容

深度学习在视觉质量提升中的具体技术有哪些?

深度学习在视觉质量提升方面有着多种先进的技术。以下是对这些技术的详细介绍:


一、基于深度学习的图像融合技术


深度学习已成为图像融合研究的主流技术。与传统图像融合技术相比,基于深度学习的图像融合模型性能显著提高。例如,依托端对端学习强大的特征提取、表征及重构能力,能够利用同一场景不同视觉信号的优势,生成单图像信息描述,提升视觉低、中、高级任务的性能34。具体来说:


  • 数据集生成:为了训练深度学习模型,需要生成合适的数据集。这可能涉及到收集不同场景下的多聚焦、多曝光、多光谱和多模态等图像数据。

  • 神经网络构造:设计适合图像融合任务的神经网络结构,能够有效地提取不同视觉信号的特征,并进行融合。

  • 损失函数设计:如生成对抗网络、注意力机制、视觉 Transformer 和感知损失函数等新颖的理论和方法被用于设计损失函数,以提高图像融合的质量。

  • 模型优化和性能评估:通过不断优化模型参数,提高图像融合的性能,并进行客观的性能评估,以确保模型的有效性。


二、基于深度学习的温室鲜枣视觉识别技术


构建大规模多源异构的鲜枣图像数据集,设计基于深度学习的端到端处理框架,包含鲜枣检测、识别分类和质量预测三个模块。该方法通过卷积神经网络和自编码器有效学习鲜枣视觉特征表达,并优化检测网络以实现较高的平均定位准确率。在模拟商业化生产环境下,该处理框架的鲜枣识别精度和质量判断性能满足需求,相比于人工识别,评价效率提升了 8 倍,准确率超过 90%,为构建自动化温室鲜枣生产线提供了关键技术支持12


三、基于深度学习的视频恢复技术


在视频恢复任务中,研究了将后训练量化技术集成到深度学习模型中,以优化超分辨率推理。结果表明,降低这些模型中权重和激活的精度,可以在不影响性能的情况下大幅降低计算复杂度和内存需求,使其更适用于实际应用,特别是需要实时推理的场景。当 TensorRT 与 PyTorch 集成时,利用 NVIDIA GPU 的 INT8 计算能力,进一步提高了模型的效率13


四、基于深度学习的图像质量提升方法


为了解决图片质量恢复中的问题,提高模型的泛化能力,弥补恢复细节:


  • 数据集方面:构建了一个具有广泛污染分布的训练数据集,其中包括不同强度的噪声与雨雾,尽可能覆盖不同的污染14

  • 模型构建方面:设计了污染强度感知模块和图片质量恢复网络。污染强度感知模块提取污染的强度特征,辅助背景图片的恢复。图片质量恢复网络分为去雾、去雨 / 噪声、细节恢复模块三个部分,每个模块根据不同污染源的先验搭建模型。细节恢复模块基于对抗生成网络,能够捕捉真实背景图片的数据分布,补充网络生成图片的细节。


五、通过视觉交互增强深度学习


提供了一种视觉驱动的深度学习方法,从粗略标记的训练数据集开始,然后通过利用数据集潜在结构的直观交互来迭代地完善标记。该方法可用于减轻密集手动标注的负担、用更简单的标注代替复杂标注算法并通过用户交互完善标记,或者使用低维特征进行粗略标记并转向高维潜在结构进行精细标记15


六、基于深度学习的图像超分辨率技术(SRGANs)


Super-Resolution Generative Adversarial Networks(SRGANs)是图像处理中的一项重要技术,通过采用生成器、判别器和 VGG19 特征提取器的框架,实现了低分辨率图像到高分辨率图像的显著提升。在科学成像、监视和数字媒体等领域具有重要价值,能够提高图像分辨率,实现更好的细节检测、对象识别和视觉体验。该框架在多个测试集上取得了较高的准确率,展示了其在提升图像质量和分辨率方面的潜力16


七、基于深度残差网络的深度学习技术


深度残差网络在计算机视觉领域有着广泛应用:


  • 行人再识别:将考虑深度、宽度和基数的深度残差网络与新的度量学习方法相结合,提出全尺度深度度量学习方法,在行人数据集上与其他方法对比,能取得较高性能17

  • 医学图像合成:将不同深度的残差网络结合组成非平衡的多通道模型,引入新的子结构和构造块,提高模型泛化能力,应用于医学图像中的动脉自旋标记图像合成,能提高老年痴呆症诊断的平均准确率17

  • UA 生成对抗网络集成:提出基于 U 型网络(包含深度残差网络)和残差注意力机制的 UA 生成对抗网络集成,能合成优质的动脉自旋标记图像和结构性磁共振图像,提高老年痴呆症诊断的平均准确率17


八、融合深度学习和视觉文本的视频描述方法


在编码阶段,将注意力机制引入 3D 残差模块,通过一维通道注意力与二维空间注意力增强视频特征映射,降低无关目标与噪声的影响。在解码阶段,利用双层长短期记忆(LSTM)深度网络的时序性特征,输出表述视频高层语义的文本描述。同时,利用基于神经网络的主题模型提取视频中的主题作为视觉文本融合进模型中,提高视频描述的整体质量18


九、基于混合 CNN-LSTM 网络的语音和视觉治疗效果监测


结合 CNN 处理视觉数据、MFCC 处理语音以及 LSTM 处理时间依赖性,提出一种使用混合 CNN-LSTM 网络的方法来测量和预测语音和视觉治疗的有效性。该方法通过预处理音频和视觉数据提高准确性,在监测患者在语音和视觉治疗中的进展方面表现出潜力,能够为改善治疗结果提供有价值的见解19


十、基于深度学习的移动机器人视觉感知算法


提出一套基于深度学习的目标物体定位算法和姿态估计算法,包括目标物体深度图的获取、空间三维位置的确定和位置姿态的估计三个部分。利用 RGBD 匹配技术和插值算法得到高分辨率的深度融合图估计物体位置。使用目标检测网络算法检测目标物体,结合融合深度图优化锚框机制,提升网络检测精度。利用语义分割网络识别物体表面平面,确定平面法向量后得到物体姿态信息,实现机械臂对目标物体的准确抓取。该算法在不同环境下经过反复测试,具有较高的检测精度和抗干扰能力,计算时间较短20


菁视力(成都)健康管理有限公司

地址:成都市新都区蓉都大道南一段361号

客服热线:028-83960959  |  13076018456

公众号

官方微信

技术支持: 网站建设 | 管理登录
seo seo