传统上,当企业需要进行数据分析时,IT 部门给出的解决方案一般都是搭建一个数据分析系统,把相关数据源整合起来,然后进行统计分析和BI模块开发。这种方法不仅周期长、投资大,而且由于与业务脱节,往往实际上效果欠佳。
而当业务部门的分析需求需要整合行业第三方数据、互联网数据和手工数据时,IT 部门就更加“巧妇难为无米之炊”了:不仅业务思路跟不上,技术上也缺乏支撑手段。
为了帮助企业用户解决此类困难,领诚科技推出 BigHawk 大数据采集平台。
作为软硬件一体化集成产品,BigHawk 采用即插即可的设计思路,确保用户投资省、见效快:
- 基于可配置采集规则。业务用户可根据其数据分析需求,在简单易用的界面上自行配置数据采集规则,无需任何人工干预,系统后台引擎自动触发采集器抓取和处理相关数据,并自动进行清洗和解析。
- 功能强大的定向爬虫。BigHawk内置的定向爬虫程序,不仅可以按照采集规则,从新闻资讯、论坛博客、电子商务等各类网站中爬取网页、文本、图片及其他可下载资源,可以支持需登陆、防盗链、需验证码等特殊情况,同时还能探测网页的真实地址,并具备网站跨层采集、脚本页面采集、动态页面采集等高级功能。
- 动态数据映射技术。BigHawk采集存储用户所需各类数据后,动态映射程序会自动与业务分析需求相匹配,并根据需要与其他数据库自动对接。初期部署时需要配置映射规则,之后系统将通过智能学习优化和增强映射规则。
- 与传统采集方式相结合。BigHawk可采用传统ETL方式,从其他业务系统(包括内部系统和第三方系统)中采集所需数据,并可在源系统中部署采集代理程序。另外,BigHawk也支持导入Excel等体外数据源。
- 多类型系统部署方式。BigHawk可以部署在云端,将数据传送给用户的私有系统,也可以私有部署在用户的内部,从外部抓取数据。但对业务用户来说,不同部署方式在使用体验上是没有任何区别的。
事实上,BigHawk是在H2平台Hawk部分的基础上,应用户的要求而进行产品化开发的。因此随着H2平台的不断优化升级,BigHawk也会持续迭代更新。