Kafka数据存储

作者&投稿：野逃（若有异议请与网页底部的电邮联系）

Kafka中的消息是存储在磁盘上的，一个分区副本对应一个日志（Log）。为了防止Log过大，Kafka又引入了 日志分段 （LogSegment）的概念，将Log切分为多个LogSegment ，相当于一个 巨型文件被平均分配为多个相对较小的文件 ，这样也便于消息的维护和清理。事实上，Log和LogSegnient 也不是纯粹物理意义上的概念，Log 在物理上只以文件夹的形式存储，而每个LogSegment对应于磁盘上的一个日志文件和两个索引文件，以及可能的其他文件（比如以.txnindex ”为后缀的事务索引文件），下图为topic、partition、副本、log和logSegment之间的关系。

虽然一个log被拆为多个分段，但只有最后一个LogSegment（当前活跃的日志分段）才能执行写入操作，在此之前所有的LogSegment都不能写入数据。当满足以下其中任一条件会创建新的LogSegment。

在索引文件切分的时候，Kafka 会关闭当前正在写入的索引文件并置为只读模式，同时以可读写的模式创建新的索引文件，默认大小为1GB。当下次索引切分时才会设置为实际大小。也就是说，之前的segment都是实际大小，活跃segment大小为1G。

索引的主要目的是提高查找的效率。

Kafka采用稀疏索引（sparse index）的方式构造消息的索引，它并不保证每个消息在索引文件中都有对应的索引项。而是每当写入一定量（由 broker 端参数 log.index. interval.bytes 指定，默认4KB ）的消息时，索引文件会增加一个索引项。

消息查找过程

间戳索引文件中包含若干时间戳索引项，每个追加的时间戳索引项中的 timestamp 必须大于之前追加的索引项的 timestamp ，否则不予追加。

消息查找过程

Kafka将消息存储在磁盘中，为了控制磁盘占用空间的不断增加就需要对消息做一定的清理操作。Kafka提供了两种日志清理策略。

kafka有专门的任务来周期性删除不符合条件的日志分段文件，删除策略主要以下有3种。

对于有相同key的不同value值，只保留最后一个版本。如果应用只关心key对应的最新value值，则可以开启Kafka的日志压缩功能，Kafka会定期将相同key的消息进行合井，只保留最新的value值。

软件开发中的Kafka和数据库的关系是什么呢?
经典的教科书是这么说的：数据库是提供 ACID 特性的，我们依次讨论下ACID。1、持久性(durability)我们先从最容易的持久性开始说起，因为持久性最容易理解。在80年代持久性指的是把数据写入到磁带中，这是一种很古老的存储设备，现在应该已经绝迹了。目前实现持久性更常见的做法是将数据写入到物理磁盘上...

Kafka 技术汇总
Apache Kafka 的一个关键依赖是 Apache Zookeeper，它是一个分布式配置和同步服务。Zookeeper 是 Kafka 代理和消费者之间的协调接口。Kafka 服务器通过 Zookeeper 集群共享信息。Kafka 在 Zookeeper 中存储基本元数据，例如关于主题，代理，消费者偏移(队列读取器)等的信息。由于所有关键信息存储在 Zookeeper ...

怎么设置kafka topic数据存储时间
1、Kafka创建topic命令很简单，一条命令足矣：bin\/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 3 --topic test 。2.此命令将创建一个名为test的topic，其中有三个分区，每个分区需要分配三个副本。三。topic创建主要分为两部分：命令行controller逻辑部分...

深入理解kafka(五)日志存储
日志段大小为broker端参数log.segment.bytes(默认为1073741824，1GB)3.基于日志起始偏移量 DeleteRecordRequest请求 1.KafkaAdminClient的deleteRecord()2.kafka-delete-record.sh脚本 5.4.2 日志压缩 broker端参数log.cleanup.policy设置为compact，且log.cleaner.enable设置为true(默认为true)5.5磁盘存储 ...

3分钟带你彻底搞懂 Kafka
kafka 需要 zookeeper 来保存服务实例的元信息，因此在安装 kafka 之前，我们需要先安装 zookeeper。zookeeper 安装环境依赖于 jdk，因此我们需要事先安装 jdk 下载zookeeper，并解压文件包创建数据、日志目录配置zookeeper 重新配置 dataDir 和 dataLogDir 的存储路径最后，启动 Zookeeper 服务到官网 ...

Kafka为什么读写数据效率这么高?
数据文件分段并建立索引，可以直接定位到每条数据，把普通的随机IO变成了顺序IO，提高了效率。Topic主题 & Partition分区存储数据 Topic 在逻辑上可以被认为是一个 queue，每条消费都必须指定它的 Topic，可以简单理解为必须指明把这条消息放进哪个 queue 里。为了使得 Kafka 的吞吐率可以线性提高，物理上把...

记一次kfd(kafka+flink+doris)的实时操作
在一次关于kafka+flink+doris的实时操作项目中，我们的目标是为某市医院构建一个统一的数据中心主索引，同时处理历史离线数据和增量实时数据，确保数据的实时性和准确性。我们的技术栈包括centos 7.2作为操作系统，mysql 5.7.30用于数据存储，kafka 2.11负责数据传输，flink 1.10.1作为流处理引擎，以及...

开源实时数据库有哪些
2. Redis 3. TimescaleDB 4. Apache Druid Apache Kafka：是一个开源流处理平台，可以处理实时数据。它具有高吞吐量的特点，允许发布和订阅记录流，类似于消息队列或企业消息系统。Kafka主要用于构建实时数据流管道和应用，可以连接各种数据源和接收者。Redis：是一个开源的内存数据结构存储系统，可以用作...

微服务想搞好,消息中间件不能少,Kafka基础入门介绍
Producer 生产的数据会不断顺序追加到该 log 文件末尾，并且每条数据都会记录有自己的 Offset 。而消费者组中的每个消费者，也都会实时记录当前自己消费到了哪个 Offset，方便在崩溃恢复时，可以继续从上次的 Offset 位置消费。Kafka存储机制此时 Producer 端生产的消息会不断追加到 log 文件末尾，这样文件...

kafka offset的存储
以groupid “test-group”为例，计数其存储位置为：__consumer_offsets-12，当其消费全部10条数据后，使用命令查看该目录下消息记录:kafka-console-consumer --bootstrap-server localhost:9092 --topic __consumer_offsets --partition 12 --from-beginning --formatter 'kafka.coordinator.group.Group...

召陵区18484378093： kafka获取数据的几种方式 - ？
骑桦罗格： 一、基于Receiver的方式这种方式使用Receiver来获取数据.Receiver是使用Kafka的高层次Consumer API来实现的.receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据....

召陵区18484378093： Kafka 可以存储文件吗 - ？
骑桦罗格： Kafka 讲道理就是个消息队列,,不能持久化任何数据

召陵区18484378093： rabbitmq和kafka的区别 - ？
骑桦罗格： Kafka在吞吐量处理上要比RabbitMQ强很多 rabbitMQ支持miror的queue,主queue失效,miror queue接管.

召陵区18484378093： 如何使用python 连接kafka 并获取数据 - ？
骑桦罗格： 连接 kafka 的库有两种类型,一种是直接连接 kafka 的,存储 offset 的事情要自己在客户端完成.还有一种是先连接 zookeeper 然后再通过 zookeeper 获取 kafka 的 brokers 信息, offset 存放在 zookeeper 上面,由 zookeeper 来协调. 我现在使...

召陵区18484378093： kafka 获取的数据怎么写进数据库 - ？
骑桦罗格： string str;if (radioButton1.Checked == true){str = radioButton1.Text;}写入数据库的时候就写 radioButton1的Text 就好 ..

召陵区18484378093： 数据为什么要由kafka传送给分布式系统 - ？
骑桦罗格： 主要是为了数据的安全.因为分布式数据库相当于单独存在的个体,一旦发生意外也只影响到局部数据库.另外,当数据传送时,可以减轻中心服务器的压力.具体的看下面: 分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方

召陵区18484378093： 如何获取kafka服务器上的数据 - ？
骑桦罗格： class LogClient(object): def __init__(self, kafkaHost, kafkaPort): self.kafkaHost = kafkaHost self.kafkaPort = kafkaPort def fixLen(self, s, l): s = s[0:8]+worknode+s[8:] fixed = s+＂＂*(l-len(s)) return fixed def sendLog(self, topic, filename): try: client = ...

召陵区18484378093： 大数据都需要学什么? - ？
骑桦罗格： 基础阶段:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis.hadoop mapreduce hdfs yarn:hadoop:Hadoop 概念、版本、历史,HDFS工作原理,YARN介绍及组件介绍. 大数据存储阶段:hbase、hive、sqoop. 大数据架...

召陵区18484378093： kafka中offset值存储在哪 - ？
骑桦罗格： 解决的方法是:分别从kafka中获得某个topic当前每个partition的offset,再从zookeeper中获得某个consumer消费当前topic中每个partition的offset,最后再这两个根据项目情况进行合并,就可以了. 一、具体实现 1、程序实现,如下: public class ...

召陵区18484378093： 大数据开发和大数据可视化哪个好 - ？
骑桦罗格： 大数据开发工程师: 开发,建设,测试和维护架构,负责公司大数据平台的开发和维护,负责大数据平台持续集成相关工具平台的架构设计与产品开发等; 大数据可视化: 将大型数据集中的数据通过图形图像方式表示,为了帮助用户通过认知...

你可能想看的相关专题

星空见康网

Kafka数据存储

你可能想看的相关专题