基于实时流式计算技术的高吞吐量网络数据分析云平台

总体方案

基于实时流式计算技术的高吞吐量网络数据分析云平台是利用自有研发的分布式流处理框架,把数据采集、数据挖掘、数据可视化于一身的大数据云计算平台,平台架构创新性的改造了Heron和Strom的分布式流式计算框架以适应高吞吐量网络大规模数据的处理,以Mesos为资源管理框架,同时结合docker将计算节点、管理节点容器化处理,保证对资源的控制和隔离。平台利用分布式流式处理技术为企业提供适用与大规模网络数据采集、挖掘和可视化云服务。此平台在6台32核CPU,130G内存的服务器下处理的数据吞吐量能达到100w/s。平台预期可以实现千万的成果创收,帮助政企客户及中小企业创建便捷易用的一站式大数据实时处理分析平台。

主要研究内容

基于实时流式计算技术的高吞吐量网络数据分析云平台是一个集合了数据采集、数据分析和数据可视化的大数据服务BDPS平台,平台以Mesos为资源管理框架支持资源调度,以Heron、Storm作为实时流计算框架,整合数据采集、数据可视化系统,使用Docker作为容器实现资源隔离和限制。

项目主要由三大平台组成,包括了数据采集平台、大数据分析平台、数据可视化平台三大部分,具有完整的数据挖掘和处理流程,其工艺流程如下图所示。

技术路线

数据采集平台

数据采集平台主要将互联网数据通过特定规则采集下来,数据采集平台实现快速低成本开发特定主题网络爬虫,使得爬虫开发技术变成web窗口化界面操作,降低学习门槛,平滑学习曲线,同时将更多设置放在底层处理,实现半自动化设计,使得界面简单清晰。包含主要功能:

1)可视化制定爬取规则

平台具有WebUI操作界面,可以通过操作页面设定规则,如特定标签抓取,循环抓取和页面跳转规则等。

2)固定爬取更新间隔

爬虫系统具有特定时间对内容进行更新爬取设置,同时爬虫系统可以在多次更新中通过学习算法学习到特定网页更新时间,从而减少人工介入。

3)模拟js代码运行,自动模拟登陆

爬虫框架包含js运行环境,可以直接解析js源码,并进行模拟登陆操作。

4)识别通用性验证码

具有对通用型验证码如字母数字混合型验证码进行识别功能,实现自动登陆功能。

5)高性能,分布式爬取及存储

具有高并发爬取功能,可以实现分布式爬取和存储任务。

6)IP代理服务

设置IP代理池和UA池,爬虫系统可以自动切换IP及UA,防止网站封杀。

数据采集平台模块设计主要分为五个部分:第一部分通过前端将UI规则转换为爬虫代码存入爬虫数据库CrawlerDB中;第二部分为通过CrawlerDB下达抓取命令,生产抓取列表fetchlist;第三部分Fetchlist通过组合url请求和IP地址、login登陆信息得到网络请求;第四部分Fetchlist通过网络请求获取目标网页内容,并提交给parser模块进行页面解析;第五部分将解析结果被存储数据库中,同时向CrawlerDB反馈爬取结果状态,更新爬取信息。设计图如下图所示。

大数据分析平台

大数据分析平台是一个集数据处理、特征工程、机器学习算法、文本算法于一身的分布式流式处理平台,平台提供从数据预处理到模型评估的一站式平台服务,基于WEB工作界面,通过拖、拉、拽等方式即可完成复杂数据挖掘流程,支持自定义算法和组件,灵活开放的个性化设置,提供丰富的分布式算法,提高模型精度。

平台除了具有数据分析功能,其一个最大的特点是可以做实时计算的流处理平台。平台整合了Storm、Heron等实时计算分布式流处理技术,以Mesos为资源管理框架管理管理流式处理实体,从而实现吞吐量达到100w/s的实时数据分析。在系统架构设计上主要采用了反压机制来确保拓扑在组件缓慢的情况下可以自适应,同时采用了docker容器技术作为拓扑节点的隔离和资源的限制,从而保证永远不能超过初始分配的资源限制。

数据可视化平台

数据可视化平台采用ECharts框架和D3框架相结合的方式。提供可视化场景模板,包括运营动态直播、数据综合展示、设备监控预警等多种场景模板,稍加修改就能够直接服务于您的可视化需求,数据可视化平台采用拖拽式界面布局,通过拖拽即可实现灵活的可视化布局,以WebGL技术作为支撑,能够绘制海量数据下的地理轨迹、飞线、热力、区块、3D地图/地球,支持多层叠加,支持关系型数据库、非关系型数据库、Restful API、CSV、静态JSON等多种数据来源,且能够实现动态轮询,将多个数据源汇聚于一个可视化界面中。

创新点

1、通过改动开源框架Heron和Storm构建实时清洗系统的底层框架,实现了基于进程的实时计算模型,大大降低了大规模网络数据对内存的占有量,提升了实时处理平台的稳定性。

2、解决了大规模网络数据的实时性处理数据时的吞吐量问题,平台能以高吞吐量地进行数据清洗、模型训练及实时反馈,为实时而且精准的营销提供一个良好的基础。

3、通过整合数据采集、数据清洗、数据分析、数据可视化,构建一站式大数据服务平台(Big Data Platform as a Service , BDPS)。

产品对比

市面上现存主要大数据挖掘平台的产品主要有国云数据的“魔镜”、阿里巴巴的“数加”、永洪商智的永洪大数据计算平台等。将市场上主要的三个产品和本产品进行对比。

通过对比可知:现有各平台的大数据工具较为单一,主要集中在云计算、数据挖掘和数据可视化等领域,但是各企业的产品较为分散,各企业没有一套完整的从数据采集到数据清洗、到数据挖掘和数据可视化的大数据解决方案。

shikanon wechat
欢迎您扫一扫,订阅我滴↑↑↑的微信公众号!