利用序列模型实现 HTML 信息抽取

利用序列模型实现 HTML 信息抽取

爬虫从互联网获取的数据是非结构化的, 信息抽取会成为很多重要的环节。我要抽取的是从各种不同的网站获取的 HTML 中的中标信息,HTML 来自成千上万的网站,下面是两个例子截图,红色部分为需要抽取的内容。要抽取的内容是第一中标公司,第一中标公司的联系人和对应中标金额共三个字段。可以看到这和通用的实体抽取还有些区别,有点儿角色标注的意思。 第一个想到的是用实体识别的方法,但是 HTML 是有结构信息的,简单的扔掉 HTML 标签从纯文本中抽取,将导致很多信息的丢失,比如表格信息,“第一中标人”这个表头,很可能就和对应的公司在纯文本中相距甚远,导致最终很难到一个比较好的效果。另一个想法是利用...

机器学习 2020-02-17 AM 94℃ 0条
mmdetection data pipeline

mmdetection data pipeline

mmdetection 是基于 Pytorch 的目标检测框架。本文对整个数据的处理流程做一个梳理Pytorch data utilsDatasetPytorch 定义了一个相当方便和简洁的数据流程,在 torchvision 中也有比较好的实现,Dataset 的接口定义如下, 主要重写 object 的两个方法, __getitem__ 和 __len__ 这个类的作用是存储原始数据相关的信息,我们要实现自己的Dataset 可以继承这个类,实现两个抽象方法就好class Dataset(object): r"""An abstract clas...

机器学习 2020-01-30 PM 453℃ 0条