《LearnPython-Python学习笔记》-图像配准(ImageRegistration)——深度学习方法

admin 2025-11-07 01:16:54 编程 来源:ZONE.CI 全球网 0 阅读模式

    一、论文一:Multi-Temporal Remote Sensing Image Registration Using Deep Convolutional Features1.论文链接:https://ieeexplore.ieee.org/document/8404075

    2.GitHub: https://github.com/yzhq97/cnn-registration

    3.Motivation: 多时相遥感图像被广泛应用于军事和民用领域,比如地面目标识别、城市发展评估以及地理变化评估。地面变化对特征点在数量和质量上的检测具有一定的挑战,这是基于特征点检测的配准算法所面临的常见的困难。image.png4.Method:提出了一种基于特征的图像配准方法,两个关键贡献:image.png使用预训练的VGG网络构建基于卷积神经网络的特征提取方法。 针对卷积神经网络在图像配准中的有效利用,该特征描述符利用高级卷积信息保留一些定位功能。提出了一种特征点配准方法,该方法使用逐渐扩大的内点选择机制,以便在配准的早期阶段通过最可靠的特征点快速确定粗略变换参数。 之后,通过增加特征点的数量来优化配准细节,同时限制不匹配。

    5.Result:image.png

    二、论文2:DocUNet: Document Image Unwarping via A Stacked U-Net1.论文链接:https://openaccess.thecvf.com/content_cvpr_2018/html/Ma_DocUNet_Document_Image_CVPR_2018_paper.html

    2.GitHub1:https://github.com/mhashas/Document-Image-Unwarping-pytorch

    3.GitHub2:https://github.com/teresasun/docUnet.pytorch

    2018旷视科技发表在CVPR上

    4.Motivation:文档数字化是保存现有打印文档的一种重要方式,随着移动摄像头日益增多,拍摄物理文档成为最便捷的一种文档扫描方式,一旦拍摄,图像可由文本检测和识别技术进一步处理,实现内容分析和信息提取。

    拍摄文档图像常见的一个实际问题是文档页的扫描条件不理想:它们可能弯曲、折叠、弄皱,或者放在非常复杂的背景上。因此存在数字化平整拍摄图像中扭曲文档的需求。image.png5.Method:本文给出一种基于学习的全新方法,来复原任意弯曲和折叠的文档拍摄图像。

    不同于先前方法,本文提出首个端到端学习方法,可以直接预测文档扭曲。

    先前方法只使用学习提取特征,而最后的图像复原仍基于传统的优化技术;本文方法则借助卷积神经网络(CNNs)端到端复原图像。

    该方法把这一问题转化为寻找合适的 2D 映射,以复原失真图像文档。它预测一个映射域,把扭曲的源图像 S(u, v) 中的像素移动到结果图像 D 中的 (x, y) 。image.png

    6.Model:选择 U-Net 作为基础模型,它基本上是一个全卷积网络,包含一系列的下采样层和随后的上采样层,特征映射在上、下采样层之间连接。

    该网络由两个 U-Net 堆叠而成。该网络从第一个 U-Net 的输出中分割和输出一个前向映射 y_1。应用在 y_2 的同一损失也应用在 y_1。接着 y_1 连接到第一个 U-Net 的输出特征映射,并作为第二个U-Net 的输入。y_2 可直接用于生成复原图像。image.pngimage.png7.Result:image.pngimage.png

    refhttps://blog.csdn.net/m0_46483236/article/details/118087404

    其他参考:https://www.cnblogs.com/carsonzhu/p/11188574.htmlhttps://www.sicara.ai/blog/2019-07-16-image-registration-deep-learninghttps://blog.csdn.net/paopaovae/article/details/87933600https://blog.csdn.net/weixin_41876817/article/details/83056331

    以太坊cppgolang区别 编程

    以太坊cppgolang区别

    以太坊是一种去中心化的开源平台,它采用智能合约技术,旨在构建和运行不受干扰的分布式应用程序。作为目前最受欢迎的区块链平台之一,以太坊提供了多种编程语言的支持,其
    progolang 编程

    progolang

    Go语言(Golang)是由Google开发的一门静态类型编程语言。作为一名专业的Golang开发者,我深知这门语言的优势和特点。在本文中,我将介绍Golang
    golangn个发送者 编程

    golangn个发送者

    Golang是一种开源的编程语言,由Google团队开发,旨在提高程序的并发性和简化软件开发过程。在Go语言中,有时需要向多个接收者发送信息。本文将介绍如何在G
    golang技能图谱 编程

    golang技能图谱

    从互联网行业的快速发展到人工智能技术的日益成熟,各种编程语言也应运而生。而在这众多的编程语言中,Golang(即Go)作为一门强大且高效的开发语言备受关注。Go
    评论:0   参与:  7