DB 场景文字检测

正午 2020-03-28 PM 216℃ 0条

文章Real-time Scene Text Detection with Differentiable Binarization 提出的文字检测模型 DB 是 Differentiable Binarization 缩写。

基于分割的方法通常需要设着一个阈值来判断像素是否属于文字区域。
1.png

作者发现对每个像素分类的模型最终产生的概率分布会呈现出边界比较高概率的样子。所以为了让分割效果更加稳定引入了监督信息,
threshold_map.png

引入的方式是在普通的像素级的分类模型上增加一个辅助分支,来动态预测每个点的分割的阈值 $T_ij$ 然后用下面的公式来判断某个像素是否属于文字区域。
2.png

训练的时候需要一个 thresh_map 的真值,这个真值的生成方式是把文本区域 G 扩大到G_d 计算 G_d内的点到 G 的边的标准化的最小距离 dis, thresh_map 的值就是 1-dis , G 的边界两边都是很高的阈值,到 G 的中部会越来越小, 文章设着最大阈值为0.7 最小为 0.3
有了这个 thresh_map 和预测输出的 P 代如公式二就能还原出哪些点是文本区域

由于正负样本通常是不均匀的,所以要对不是文本区域的像素做采样,采样的策略是和 OHEM 的方式类似,选取被预测文文字区域高的像素作为负样本。

最后最预测的时候并不需要阈值的分支。有点儿类似增加了边界像素权重的意思。主要的好处是省去了复杂的后处理过程。但是感觉比较难训练,相对而言, PSENet 是预测多个缩小的文字区域,最后用广度优先的方式来合并成一个文本区域,训练会简单些,只是有个后处理步骤。他们都能对相邻很近的文本区域有比较好的效果。

截屏2020-03-28下午4.55.41.png

标签: none

非特殊说明,本博所有文章均为博主原创。

评论