用 C 实现 CNN 图像分类

用 C 实现 CNN 图像分类

模仿 darknet 的实现和 华盛顿大学深度学习课程 实现的图像分类,感兴趣的直接看源码, 能在 linux 和 mac 上运行看懂代码需要一些基础C 语言基础,特别是对指针的理解线性代数,最主要的矩阵运算的一些基础就好微积分,知道如何求导数相关数据结构由于没有实现多维的 tensor ,也没有计算图自动微分这些, 数据在网络中的存储和传递都是通过 matrix 这个结构体typedef struct matrix{ int rows; int cols; float *data; } matrix;rows 和 cols 存储矩阵的 行数和列数, *data 是浮点型的指...

2020-06-27 PM 28℃ 0条
图像二值化算法-传统方法

图像二值化算法-传统方法

图像二值化在 OCR 里面是比较重要的部分在我写的标注工具离 地址实现了下面的算法Otsu - "A threshold selection method from gray-level histograms", 1979.Bernsen - "Dynamic thresholding of gray-level images", 1986.Niblack - "An Introduction to Digital Image Processing", 1986.Sauvola - "Adaptive document image binarization", 1999.Wolf - "...

机器学习 2020-06-10 PM 43℃ 0条
FastText 的模型压缩

FastText 的模型压缩

最近又重新回去读 Fasttext 的代码,对模型压缩的部分比较感兴趣,仔细看了下在 Fasttext 中分类模型是把 句子中每个词的 word embedding 求平均再做 Softmax 分类 , 所以参数模型的参数有两部分,一部分是 Word Embedding , 另一部分是 Softmax 分类器中的权重,FastText 的压缩主要有两部分组成,第一部分是对 vocab 进行剪枝,另一部分是 Product Quantizers.vocab 剪枝在训练训练分类去的时候 FastText 为了解决 OOV 的问题加入了字符的 ngram, 由于通常词典本身就很大,加上 ngr...

2020-05-10 PM 152℃ 0条
[表格重构]Complicated Table Structure Recognition

[表格重构]Complicated Table Structure Recognition

论文Complicated Table Structure Recognition 尝试用图的方法重构表格的结构。 文章代码文章想解决的问题如上图,在表格重构的时候文本块是属于同一行还是下一行肉眼很清楚,但是机器一般很难做到,存在单元格合并的问题。文章的整个做法如下图:从 PDF 中提取文本 chunk 的坐标和内容, 然后根据 chunk 之间的关心构造一个图,模型输入是顶点和边的特征,以及图的关系,预测边的类型,边的类型分为三种,上面蓝色的线表示 chunk 是同行的,红色的线表示是下一行的,另外一种就是没关系。顶点的特征如下: return { "x1&qu...

机器学习 2020-03-31 PM 213℃ 0条
DB 场景文字检测

DB 场景文字检测

文章Real-time Scene Text Detection with Differentiable Binarization 提出的文字检测模型 DB 是 Differentiable Binarization 缩写。基于分割的方法通常需要设着一个阈值来判断像素是否属于文字区域。作者发现对每个像素分类的模型最终产生的概率分布会呈现出边界比较高概率的样子。所以为了让分割效果更加稳定引入了监督信息,引入的方式是在普通的像素级的分类模型上增加一个辅助分支,来动态预测每个点的分割的阈值 $T_ij$ 然后用下面的公式来判断某个像素是否属于文字区域。训练的时候需要一个 thresh_map ...

机器学习 2020-03-28 PM 385℃ 0条