图像进行切割分成两个左右两个图像就行显示出来_图像分割的难点在哪里？

<div>

<div style="text-align:center;">
 <img alt="75798f7ca6794cdc621658685db2b645.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-6d7e5a4e41fcbfbc6d83d9e024817ecd.png">
</div>
2020.6.10：更新了部分解决方法和一个难点。
2020.1.22：更新有哪些可能有效的解决方法。
前言：
这是本专栏的第一篇文章，主要会讲述个人对图像分割这个领域里面的一些浅显的理解，后续还会更新显著物体检测，目标检测，图像生成等方面研究的文章，当然也会包括我的一些不靠谱的直觉和灵感，希望能够给其他人一些启发。如有讲不合适的地方，欢迎指正。
目录：
1，图像分割在研究什么？
2，图像分割的难点在哪里？
3，有哪些可能有效的的解决方法？
<hr>
1，图像分割在研究什么？

<div style="text-align:center;">
 <img alt="ff253c4b24c262432a5cbfc5f69d1c1e.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-e571a507a321abf6be8c684d847e2c5e.png">
</div>
<figcaption>
 图1，分割的类型[1]
</figcaption>
图像分割自始至终都在解决一个问题，那就是怎么恰当的把一幅图像分成不重叠的子区域。那么如何来定义这个‘恰当’呢？这个是由分割算法所服务的后续应用所决定的。就目前（9120年）来说，图像分割一般会分为图1所示的三种类型：能够区分不同的种类的物体-语义分割；能够区分同一类可数物体的不同实例-实例分割；能够区分同一类可数物体的不同实例以及不可数物体的种类-全景分割。分割能够把一幅图像解析得越精细，那么后续对后续的应用也就是更加友好的。

2，图像分割的难点在哪里？
虽然定义分割的种类不一样，但是分割领域里面存在一些共同的问题，一些常见的问题比如，因为相机和拍摄物体的距离远近引起的同一个物体在图像中可能占不同大小的画幅->多尺度问题；拍摄角度物体的不同->物体多姿态（或者多视角）问题；外界的光照不同->光照问题等。这些我就不细讲了，因为已经有相当多的论文和专栏在讲解这些。在这里我提几个关注的人还不太多的难点：
2.1，分割边缘不准的问题。

<div style="text-align:center;">
 <img alt="c489d538585e495d9d6bbf2c69a0279e.gif" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-2ee01596e9d2ad484be41681a2106728.gif">
</div>
<figcaption>
 图2，SegNet的分割结果展示[2]
</figcaption>
从常见的SegNet的分割示例（图2）可以看出，树干和车对应的分割区域边缘一直在震荡，变形。其边缘并没有得到很好的保留，就算换成现在分割效果很好的 deeplabv3+依然还是能发现这样的现象。究其最根本的原因，还是因为相邻临的像素对应感受野内的图像信息太过相似了，如果临近的像素都属于所需分割区域的内部，那么这种‘相似’是有利的，但是如果相邻像素刚好处在所需分割区域的边界上，那么这种相似就是有害的了。
2.2，在同一副图像中不同类别或实例的像素不均衡的问题。不同物体分割的难度也并不一样。

<div style="text-align:center;">
 <img alt="a71d1940846b751152e95e34d47210a3.png" src="https://beijingoptbbs.oss-cn-beijing.aliyuncs.com/cs/5606289-d11ed28f2e108ee6139e3c7c67307340.png">
</div>
<figcaption>
 图3，PSPNet 在PASCAL VOC2012 每个类别的结果对比[3]
</figcaption>
在大多数情况下，我们是直接把训练模型后面直接接一个 softmax，然后交叉熵训一波。但是这样训出来的模型，是建立在每个物体类别的像素数，以及每个物体的分割难度是差不多的假设下的。从图3可以看出往往样本少的，结构复杂不好分割的类别(如（sofa，bike，chair )效果会比较差，而且整体的结果的方差还是相对比较大的。
2.3，标注费事费力，且标注中是可能存在噪声的。
文章[4]指出仅仅单独标注图像中单个物体所需的时间就可以达到40s，假设一张图里面大概有10个物体那么一张图也得标5分钟了，要是像Cityscape数据集那样精细的分割标注，估计怎么也得10-20分钟一张图。训练一个成熟的分割模型，怎么也得需要上万张的训练图像了。而且要是应用场景不一样，要想效果好，每个场景都得标一个这样得数据集。估计人都要没了。就算外包给公司标，时间和成本也是很大的问题。