Apache Kafka 2.3 发布,大数据分布式流式平台


两天前,Apache Kafka团队发布了最新版本的开源分布式数据流软件Apache Kafka 2.3。这个版本对Kafka Core、Connect和Streams REST API有几个改进。在这个版本中,添加了一个新的最大日志压缩延迟。它还改进了分区监视、SocketServer处理器中的公平性等等。

Apache Kafka 2.3有什么新特性?

Kafka Core

减少代理用于扫描日志文件的时间

JIRA优化了一个进程,这样Kafka只需检查它的日志段。在早期版本中,日志恢复所需的时间与日志的数量不成比例。在Kafka 2.3中,它与未刷新的日志段的数量成正比,并且代理启动时间减少了50%。

改进了对丢失副本的分区的监视

在这个版本中,Kafka Core添加了一些指标,显示具有最少同步副本的分区。通过监视这些指标,用户可以看到分区处于复制不足的边缘。此外,-under-min-isr命令行标志已添加到kafka-topics命令中。这将使用户容易地看到哪些主题的同步副本少于最小数量。

添加了最大日志压缩延迟

在早期版本中,在写入最新的密钥之后,一阶近似中的先前密钥值将在一段时间后得到压缩。在此版本中,现在可以设置旧值的最大时间量。新参数max.log.compation.time.ms将指定旧值可能存在于压缩主题中的时间长度。这将使Apache Kafka能够遵守GDPR等数据保留规定。

提高了SocketServer处理器的公平性

Apache Kafka 2.3将优先考虑现有连接而不是新连接,并将提高代理对连接风暴的恢复能力。它还为每个代理设置添加了max.connections。

Core Kafka还改进了Replica Fetcher中的故障处理。

Kafka Connect中的增量协作重新平衡

在Kafka Connect中,工作任务分布在可用的工作节点中。重新配置连接器或部署新连接器时 - 以及添加或删除工作程序时 - 必须在Connect群集中重新平衡任务。这有助于确保所有工作节点正在共享Connect工作。使用Kafka 2.3,可以更轻松地进行配置更改。 Kafka Connect还为Connect工作日志添加了连接器上下文。

Kafka Streams

允许用户在RocksDB中存储记录时间戳

Kafka Streams将在国家商店中包含时间戳。这将为确保未来功能奠定基础,例如处理KTable中的无序消息和实现KTables的TTL。

添加了内存窗口存储和会话存储

此版本具有Kafka Streams窗口存储和会话存储的内存实现。内存中的实现提供了更高的性能,以换取磁盘缺乏持久性。

Kafka Streams还添加了KStream.flatTransform和KStream.flatTransformValues。

这些是一些精选的更新,请访问Apache博客了解更多细节。

linuxboy的RSS地址:https://www.linuxboy.net/rssFeed.aspx

本文永久更新链接地址:https://www.linuxboy.net/Linux/2019-06/159175.htm

相关内容