FastText 的模型压缩

FastText 的模型压缩

最近又重新回去读 Fasttext 的代码,对模型压缩的部分比较感兴趣,仔细看了下在 Fasttext 中分类模型是把 句子中每个词的 word embedding 求平均再做 Softmax 分类 , 所以参数模型的参数有两部分,一部分是 Word Embedding , 另一部分是 Softmax 分类器中的权重,FastText 的压缩主要有两部分组成,第一部分是对 vocab 进行剪枝,另一部分是 Product Quantizers.vocab 剪枝在训练训练分类去的时候 FastText 为了解决 OOV 的问题加入了字符的 ngram, 由于通常词典本身就很大,加上 ngr...

2020-05-10 PM 54℃ 0条
[表格重构]Complicated Table Structure Recognition

[表格重构]Complicated Table Structure Recognition

论文Complicated Table Structure Recognition 尝试用图的方法重构表格的结构。 文章代码文章想解决的问题如上图,在表格重构的时候文本块是属于同一行还是下一行肉眼很清楚,但是机器一般很难做到,存在单元格合并的问题。文章的整个做法如下图:从 PDF 中提取文本 chunk 的坐标和内容, 然后根据 chunk 之间的关心构造一个图,模型输入是顶点和边的特征,以及图的关系,预测边的类型,边的类型分为三种,上面蓝色的线表示 chunk 是同行的,红色的线表示是下一行的,另外一种就是没关系。顶点的特征如下: return { "x1&qu...

机器学习 2020-03-31 PM 117℃ 0条
DB 场景文字检测

DB 场景文字检测

文章Real-time Scene Text Detection with Differentiable Binarization 提出的文字检测模型 DB 是 Differentiable Binarization 缩写。基于分割的方法通常需要设着一个阈值来判断像素是否属于文字区域。作者发现对每个像素分类的模型最终产生的概率分布会呈现出边界比较高概率的样子。所以为了让分割效果更加稳定引入了监督信息,引入的方式是在普通的像素级的分类模型上增加一个辅助分支,来动态预测每个点的分割的阈值 $T_ij$ 然后用下面的公式来判断某个像素是否属于文字区域。训练的时候需要一个 thresh_map ...

机器学习 2020-03-28 PM 217℃ 0条
EAST 场景文字检测

EAST 场景文字检测

EAST: An Efficient and Accurate Scene Text Detector arXiv:1704.03155v2EAST 是文字检测算法,输入:图片,输出: 图片中文字的位置EAST 的主要创新在对文字位置的定义,也就是文字检测这个问题的定义. 从而简化整个检测的流程,达到比较好的速度和准确率。EAST 主要考虑的是文字标注为四边形的情况,文中提出了两种方式, 带角度的矩形框 (RBOX) 和 四边形 (QUAD)。 我解释下 QUAD , RBOX 相对会更加复杂和麻烦。如果我们把最终的特征上采样到和输入图片一样大,EAST 相当于是在每个像素点预测当前像素...

机器学习 2020-03-09 PM 217℃ 0条
目标检查中的 Anchor

目标检查中的 Anchor

在 Faster R-CNN 中引入的 RPN 分支利用对 Anchor 的分类(前景还是背景)和位置回归来选择 Region Proposal 和调整其位置。Anchor 对应到输入图像是就是一个矩形区域,对应到特征图(feature map)上的一个特征点。在原图上可以用左上角和右下角两个点坐标来定义: [x_min, y_min, x_max, y_max]Anchor 的生成在早些时候是用一个框在图像上滑动,比如下面这样,每个小方块就是一个选取的区域,对这个区域提取特种,并分类Anchor 的生成和这个逻辑类似,我们定义图书这些方块的边长为 base_size , 在每个位置,...

机器学习 2020-02-19 PM 144℃ 0条