实时计算的一些思考,实时计算思考



实时处理过程的一些问题,有的是大促时候发现的,有的是规划data_eye这个数据产品时候想到的,拿出来和大家一起讨论下:
  1. 同一个topic的处理逻辑冗余,逻辑上还有运行资源上(日志处理这块资源开销较大)
  2. 数据处理口径差异性控制
  3. 同一数据源后续处理的耦合性,尤其是数据产品开发时候的发布一个topo,可能影响较大

借鉴了数据仓库设计的模型结构以及linkedin的Samza处理思想,可以考虑使用kafka这个组件做数据回流

处理后的数据以topic的形式对外服务。更新后的处理流程如下:



方案的优点:

相关内容