• Home
  • About
  • Contact
  • Phone + (541) 754-3010
  • mail@example.com
  • Melbourne, Australia

logo

  • 首页
  • 关于
  • 联络方式

1.确定采集途径

网页采集和api(网页,APP,小程序)采集,

网页采集需要使用工具(正则,HTMLAgility,Xpath这些)将我们 需要的数据提取出来。

要是api采集的话,一般回来直接就是json数据了。

2.数据分析

采集是个系统化的操作,一般都会是多层级的数据采集,举个最简单的采集例子,新闻采集:

新闻分类 -> 分页新闻列表 -> 新闻详情

这里通常是一层一层地去采集:先获取分类,再找出分页参数规律,获取分类里面的所有新闻列表及详情超

链接,最后再请求详情链接得到新闻详情,最后再去下载图片视频等静态资源,每一步只做简单重复的步骤,

保证每个采集单元都是简单的操作,而不是一条链状的操作。

3.写采集思路

分析数据完了以后不要急着写采集代码,先写写思路,包括采集过程中可能会遇到的问题:访问限制(令牌、

访问频率)、超时处理、错误处理 等等,先想好写下来。

3.数据实体类生成

因为采集回来的数据是一串文本,不方便处理,需要转成结构化的数据,这里采用先采集样例数据回来,

使用工具直接生成实体类。

4.开始采集

对于数据量比较大的采集,先采集一小部分数据回来检查一下数据的正确性,数据量小的就直接采集

确认没问题再去持久化,持久化时可以将原始采集数据保存下来,

写每一级别的采集代码,每一级都如此,走通整个链确定代码逻辑没问题之后就可以真正开始采集了

5.采集异常中断处理

采集过程中一般都会遇到一些中断的问题:原始数据错误导致了程序错误、网络超时,访问限制

可以采用小步数据持久化,如每采集200条记录存一次,清空一下内存里面的数据,记录采集进度位置,

继续采集,发生异常时可以做异常二次采集操作,像网络超时这种异常通过二次采集都是可以解决的,

最后如果二次采集都不行的话,就要记录下来,最后去手动处理了。

6.静态资源下载

由于静态资源具有任务执行时间长,受网络因素影响严重等特点,一般都会放到文本数据采集完了以后再

去集中下载,此时任务就是简单的下载操作(新建文件夹,保存资源文件)。

7.采集模式优化(单线程,多线程,多进程)

如果全程都是单线程执行任务的话,耗时会比较长,在采集目标站点访问频率允许的条件下,我们可以

通过多线程或者多进程来加快采集速度,这里在多进程采集模式下,遇到了一个问题:当两个进程同时

进行批量数据持久化的时候,会因为冲突导致其中一个进程挂掉,这里不知道是不是我的DBHelper的问题,

暂时 还不清楚是怎么一回事,通过将数据持久化的粒度放大可以大程度地避免这种冲突的出现

8.优化建议

1.采集是一个系统性的任务,需要先想明白再去做,减少推倒次数(思路推倒,代码推倒) 。

2.在做数据持久化的时候如果使用的是数据库储存的方式,可以开启长连接或者生成批量操作语句

一次执行,控制好语句长度,如果是采用参数化的方式,还需要注意Sqlserver 一次操作最多支持2000个

参数

3.获取图片时有些会是缩略图,这里需要尽可能找出获取大图的规律,或者去水印图片,有意识地去找,一般都能找到

联系我们


想了解我们更多吗?欢迎各大品牌公司来咨询我们,
我们非常乐意为你解决问题

+86 020-62330660

项目

项目案例

沉淀时尚品牌客户超1000家 涵盖女装、男装、内衣、童装、皮具、家纺、饰品等行业

Associate Logo
Associate Logo
Associate Logo
Associate Logo
Associate Logo
Associate Logo

关于我们

广州市见微信息科技有限公司成立于2015年,我们致力于为零售行业客户提供持续创新,并能随需而变的移动物联网解决方案。

Logo

流行资讯

  • 疫情期间线下无法开展线下订货会,这种订货方式大放异彩
  • 这种管理pda的方式门店从此不再烦恼
  • 无感识别新技术

类别

  • Corporate(5)
  • Business(2)
  • Photography(4)
  • Agency(7)
  • Careers(6)
  • Finance(5)

案例应用

Gallery
Gallery
Gallery
Gallery
Gallery
Gallery
Gallery
Gallery
Gallery

联系方式

  • 地 址:广州市番禺区番禺大道北海印星玥3栋1902
  • 电 话:020-62330660
  • 邮 箱:yinghui.xue@zenwave.com.cn
  • 传 真:020-62330660-820
    • >
    •                                                                                     隐私政策   电子营业执照   备号   广州市见微信息科技有限公司版权所有    粤ICP备19078220号
                                                                                                                                             © Inter 666 1949-2017