携程实时智能检测平台建设实践

  • 时间:
  • 浏览:2
  • 来源:大发彩神UU快三_大发神彩UU快三官方

摘要:本次演讲将为许多人介绍携程实时智能异常检测平台——Prophet。到目前为止,Prophet基本覆盖了携程所有业务线,监控指标的数量达到10K+,覆盖了携程所有订单、支付等重要的业务指标。Prophet将时间序列的数据作为数据输入,以监控平台作为接入对象,以智能告警实现异常的告警功能,并基于Flink实时计算引擎来实现异常的实时预警,提供一站式异常检测防止方案。

节假日应对手段:不同的场景会意味不同的问題报告 ,也不Prophet针对节假日场景做了许多特殊防止。首先,维护每年节假日信息表,tcp连接运行一旦发现下一一3个节假日还一一3个星期时,Prophet就会提取出过去两年内的不同节假日期间的数据。许多计算前两年的不同节假日和当前节假日数值的这类度来匹配。要花费以当前节假日的数据拟合过去节假日的数据,拟合到某个时间段时,就知道要花费从某个时间过后开始 到某个时间过后开始 是和当前趋势这类的。然一定会用过去多个节假日的数据作为一一3个组媒体媒体合作为新模型的数据输入去训练数据集。不同节假日的占比不同,通过许多最好的辦法 计算出不同占比值。最终相基于组合的数据集训练出新的模型,新的模型可不后能 比较好地预测出某一一3个指标许多某一一3个业务在节假期七天之内的趋势。

携程一般两周发一次版本,每个业务指标一定会每两周尝试训练一次,模型输入的训练数据也取两周的数据集。在使用历史数据事先时要做数据预防止,比如历史数据中许多处在null值,时要使用均值标准差将其补齐。其次历史数据区间中间肯定会有许多异常区间,时要用许多预测值替换异常区间的异常值。另外许多节假日期间数据较为多样化,时要替换节假日期间的异常值。对历史数据的数据集做数据预防止事先,过后开始 提取其不一起序的组织结构许多频率的组织结构。许多通过一一3个分类模型分类出指标是平稳的、非周期的还是周期型的。不这类型的指标时要不同的模型进行训练。

针对以上三点问題报告 ,携程尝试了RNN,LSTM和DNN等多种深度1学习算法。

首先,Prophet以时间序列类型的数据作为数据输入。其次,Prophet以监控平台作为接入对象,以去规则化为目标。基于深度1学习算法实现异常的智能检测,基于实时计算引擎实现异常的实时检测,提供了统一的异常检测防止方案。

用户只时要在本人常用的监控平台上选泽配置智能告警,后续所有流程一定会由监控平台和Prophet智能告警平台对接完成。监控平台所时要做的蕴藏两件事,首先将用户配置的监控指标同步到Prophet平台, 其次监控平台需将用户配置的监控指标数据实时的推送到Kafka消息队列中。

目前主流的实时计算引擎有Flink、Storm和SparkStreaming等多种,携程选泽Flink作为Prophet平台的实时计算引擎的意味主也不 Flink具备以下四点组织结构:

Prophet基本覆盖了携程所有业务线。即携程的重要业务指标基本都许多在使用监控智能告警。业务类型蕴藏7种。监控指标的数量达到10K+,覆盖了携程所有订单、支付等重要的业务指标,覆盖了大主次服务的重要的业务指标。接入平台在10+左右,基本接入了携程公司所有系统级别的监控平台,在陆续接入各个业务部门本人的监控平台。Prophet平台才能覆盖95%左右的异常,准确报警率达到75%。许多每个数据同步到Prophet便触发数据实时消费、预测以及告警,告警延迟达到ms级别。告警数量也下降了十倍左右。

模型加载完成后时要做实时异常检测。首先从Kafka消息队列中消费实时数据。Prophet目前基于Flink Event Time+滑动窗口。监控指标的时间粒度可不后能 分为也不种,如1分钟一一3个点、5分钟一一3个点、10分钟一一3个点等等。这类基于1分钟一一3个点的场景来看,在Flink作业中开一一3个窗口,其长度是3个时间粒度,即十分钟。当积累到十条数据时,用前3个数据预测下一一3个数据,即通过第1、2、3、4、53个时刻的数据去预测第3个时刻的数据,许多用第2、3、4、5、6时刻的数据预测第七个时刻的数据。最终获得第6、7、8、9、103个时刻的预测值和实际值。再利用预测值与实际值进行对比。以上是数据无异常的理想场景下的情況。

大主次监控平台是基于规则告警实现监控指标的预警。规则告警一般基于统计学,如某个指标同比、环比连续上升或下降到一定阈值进行告警。规则告警时要用户较为熟悉业务指标的组织结构,从而才能较为准确的配置告警阈值,曾经带来的问題报告 是配置规则告警非常繁琐、告警效果也比较差,时要血块人力物力来维护规则告警。当一一3个告警产生时,也时要耗费许多人力验证告警与非 正确并确认与非 时要重新调整阈值。在携程,规则告警还涉及了其它问題报告 ,比如携程光公司级别的监控平台一定会一一3个,每个业务部门一定会根据本人的业务需求或业务场景构建本人的监控平台。携程组织组织结构有十几条不同规模的监控平台,在每一一3个监控平台都配置监控指标对于用户是非常繁琐的。

实时异常检测主要可不后能 从以下几条方面进行判断:

许多携程做旅游方向的业务,节假日期间问題报告 较为突出。不这类型的业务在节假日的表现是不同的。这类携程的机票、火车票基本是在节前上升到血块,到假期期间许多许多人出游,该买的票许多购买完成,机票等业务订单量会下降也不。而酒店等业务在节假期间会上升也不。不这类型业务的趋势不同,上升幅度较大的业务容易产生漏报,对于下跌幅度较大的业务,容易产生误报。

模型训练完成后,Flink作业时要动态加载模型。但实际场景下,不许多每训练一一3个模型便重启一次Flink作业。也不Prophet平台将模型训练完成后上传到HDFS,通知配置中心,许多Flink作业过后开始 从HDFS上拉取模型。为了使每个模型均匀分布在不同的Task Manager中间,所有监控指标会根据并都是id做keyBy,均匀分布在不同的Task Manager上。每个Task Manager只加载本人主次的模型,以此降低资源消耗。

在做智能检测事先一定会遇到许多挑战。

针对规则告警处在的以上几种问題报告 ,携程构建了本人的实时智能异常检测平台——Prophet。携程构建Prophet的灵感源于FaceBook的Prophet,但实现上有别于FaceBook的Prophet。

实际场景下往往会经常冒出意想只有的情況。这类上述10分钟的场景中只获得了9条数据,缺少第一一3个时刻的数据, Prophet会使用均值标准差补齐此类缺失数据。另外许多在上一一3个时刻检测到第6、7、8、9、10时间区间是异常区间,处在了下跌许多上升。没办法 此区间的数据被认为是不正常的,只有作为模型输入。此时时要用上一批次模型预测出的第6时刻的值替换原始的第3个时间粒度的值。第2、3、4、5、6这3个时刻值中第4是插补而来的,第6是时间区间训练出来的预测预测值替换掉了异常值。以插补替换事先的值作为模型输入,得到新的预测值7。再依次进行预测。中间过程中异常区间第6、7、8、9、10时刻的预测值时要作为一一3个情況来存储到Flink StateBackend,后续窗口会使用到哪几种预测值。

Prophet在接受到新的监控指标后,便过后开始 尝试使用Tensorflow训练模型。模型训练时要历史数据,平台可不后能 按照约定好的规范提供历史数据查询接口,Prophet通过接口获取历史数据并进行模型训练、许多没办法 接口,Prophet基于消息队列中的数据来积累训练数据集。模型训练完成后,将其上传到HDFS,Prophet会更新配置中心中的配置通知Flink有新训练好的模型可不后能 加载。所有实时推送到Kafka中间的监控指标的数值,会同步的落到Prophet的时序数据库中,在异常检测的过程中时要用到哪几种指标数值。当模型训练完成后,Flink的作业一旦监听到配置处在了更新,就过后开始 尝试加载新模型,实时消费Kafka中间的指标数据,最终产出检测结果以及异常告警会回写至Kafka,各个监控平台会从Kafka获取本人监控平台的那一主次告警数据。整套Prophet操作流程对于用户是无感知的,用户只时要配置告警,极大的提供了便捷性。

演讲嘉宾简介:潘国庆,携程大数据研发经理。

以下内容根据演讲视频以及PPT架构设计 而成。

https://developer.aliyun.com/live/1790

本次分享主要围绕以下3个方面:

针对上述问題报告 ,Prophet正陆续进行改进,希望通过下面几种最好的辦法 防止遇到的挑战。