原文链接:
https://m.pythontab.com/article/1405

在此作简要整理

计算机视觉领域的八大任务:
图像分类、目标检测、图像语义分割、场景文字识别 —四大基本任务场景(如何帮助计算机从单个或者一系列的图片中提取分析和理解的关键信息)
图像生成、人体关键点检测、视频分类、度量学习等。

一、图像分类

得益于深度学习的推动,图像分类的准确率大幅度提升。在经典的数据集ImageNet上,训练图像分类任务常用的模型,包括AlexNet、VGG、GoogLeNet、ResNet、Inception-v4、MobileNet、MobileNetV2、DPN(Dual Path Network)、SE-ResNeXt、ShuffleNet等
模型的结构和复杂程度都不一样,最终得到的准确率也有所区别。

二、目标检测

目标检测人物的目标是给定一张图像或是一个视频帧,让计算机找出其中所有目标的位置,并给出每个目标的具体类别。
在目标检测任务中,我们主要介绍如何基于PASCAL VOC、MS COCO数据训练通用物体检测模型,包括SSD模型、PyramidBox模型、R-CNN模型。

  • “SSD模型,Single Shot MultiBox Detector,是一种单阶段的目标检测器。与两阶段的检测方法不同,单阶段目标检测并不进行区域推荐,而是直接从特征图回归出目标的边界框和分类概率。SSD 运用了这种单阶段检测的思想,并且对其进行改进:在不同尺度的特征图上检测对应尺度的目标,是目标检测领域较新且效果较好的检测算法之一,具有检测速度快且检测精度高的特点。”
  • “PyramidBox模型,百度自主研发的人脸检测模型,是一种语境辅助的单次人脸检测新方法,能够解决在不受控制的环境中检测小的、模糊的及部分遮挡的人脸时的问题,模型于18年3月份在WIDER Face数据集上取得第一名。”
  • “R-CNN系列模型,区域卷积神经网络(R-CNN)系列模型是典型的两阶段目标检测器,相较于传统提取区域的方法,R-CNN中RPN网络通过共享卷积层参数大幅提高提取区域的效率,并提出高质量的候选区域。Faster R-CNN和Mask R-CNN是R-CNN系列的典型模型。

  Faster R-CNN 区域生成网络(RPN)+Fast R-CNN的实现,将候选区域生成、特征提取、分类、位置精修统一到一个深度网络框架,大大提高运行速度。

  Mask R-CNN在原有Faster R-CNN模型基础上添加分割分支,得到掩码结果,实现了掩码和类别预测关系的解藕,是经典的实例分割模型。”

三、图像语义分割

图像语义分割,顾名思义是将图像像素按照表达的语义含义的不同进行分组/切割。
分割任务主要分为实例分割和语义分割,实例分割是物体检测加上语义分割的综合体,上文介绍的Mask R-CNN是实例分割的经典网络结构之一。在语义分割任务中,我们主要介绍兼顾准确率和速度的ICNet,DeepLab中最新、执行效果最好的DeepLab v3+。

四、场景文字识别

图像语义分割,顾名思义是将图像像素按照表达的语义含义的不同进行分组/切割。
在场景文字识别任务中,我们介绍如何将基于CNN的图像特征提取和基于RNN的序列翻译技术结合,免除人工定义特征,避免字符分割,使用自动学习到的图像特征,完成字符识别。这里主要介绍CRNN-CTC模型和基于注意力机制的序列到序列模型。


一、图像生成

二、人体关键点检测

人体关键点检测,通过人体关键节点的组合和追踪来识别人的运动和行为,对于描述人体姿态,预测人体行为至关重要,是诸多计算机视觉任务的基础,例如动作分类,异常行为检测,以及自动驾驶等等,也为游戏、视频等提供新的交互方式。

三、视频分类

视频分类方法主要包含基于卷积神经网络、基于循环神经网络、或将这两者结合的方法。

四、度量学习

度量学习也称作度量学习、相似度学习,通过学习对象之间的距离,度量学习能够用于分析对象时间的关联、比较关系,在实际问题中应用较为广泛,可应用于辅助分析、聚类分析,也广泛应用于图像检索、人脸识别等领域。



本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!