zqhxuyuan

蚂蚁金服 - 消息系统研发工程师/技术专家

2019-12-31T16:00:00.000Z

蚂蚁金服 - 消息系统研发工程师/技术专家

职位描述:
蚂蚁金服中间件团队是服务于整个蚂蚁金服集团的核心技术团队，打造了世界领先的金融级分布式架构的基础中间件平台。欢迎加入我们，一起挑战核心技术，拓展商业边界！
消息系统广泛应用于蚂蚁金服的各项业务中，是支撑双十一、双十二以及新春红包等大型活动的重要系统，每天线上有万亿规模的消息流转，支持复杂的 LDC 单元化消息路由，并且需要具备高性能、高可用、高可靠和强一致等特性，具有非常高的技术挑战。随着云原生时代的到来，消息系统正在进行 Message Mesh 和 Serverless 架构的探索和升级。
另外，消息系统也在基于蚂蚁金融科技开放战略进行商业化输出，是金融分布式架构的重要技术组件。欢迎您一起来参与金融级分布式消息系统、云原生时代的下一代消息系统的架构设计和研发，以及消息系统商业化输出

职位要求:

熟悉 Java、Go 等一门主流语言，熟悉并发和网络编程，有良好的数据结构和算法功底；
熟悉消息系统的原理和关键技术，熟悉 Kafka/Pulsar/RocketMQ 等消息产品的原理和实现，有开源社区贡献者优先；
有分布式存储的使用和研发经验者优先；
对云原生相关概念和技术，比如 Service Mesh、Serverless、Kubernetes、Knative 等熟悉者优先；
有消息系统商业化经验者优先；
有技术热情和较强的学习能力，以及良好的沟通能力、抗压能力和团队协作能力。

重点来了：可以年前先面试，年后再入职。P6可以不需要消息的背景，有中间件的背景即可。

联系邮箱:
qihuang.zqh at antfin.com

Kafka消费者增量拉取

2019-03-06T16:00:00.000Z

https://cwiki.apache.org/confluence/display/KAFKA/KIP-227%3A+Introduce+Incremental+FetchRequests+to+Increase+Partition+Scalability
https://www.cnblogs.com/huxi2b/p/9335064.html

简介

为了减少客户端每次拉取都要拉取全部的分区，增加了增量拉取分区的概念。

拉取会话（Fetch Session），类似于web中的session是有状态的，客户端的fetch也可以认为是有状态的。
这里的状态指的是知道“要拉取哪些分区”，如果第一次拉取了分区1，如果后续分区1没有数据，就不需要拉取分区1了。

FetchSession的数据结构如下：

case class FetchSession(val id: Int, // session编号是随机32位数字，防止未授权的客户端伪造数据
                        val privileged: Boolean,
                        val partitionMap: FetchSession.CACHE_MAP,
                        val creationMs: Long,
                        var lastUsedMs: Long,
                        var epoch: Int) // 自增

为了支持增量拉取，FetchSession需要维护每个分区的以下信息：

topic，partition Index（来自于TopicParttition）
maxBytes，fetchOffset，fetcherLogStartOffset（来自于最近一次的拉取请求）
highWatermark，localLogStartOffset（来自Leader的本地日志）

因为Follower或者Consumer发送拉取请求都是到Leader，所以FetchSession也是记录在Leader节点上的

FetchRequest Metadata（客户端的拉取请求元数据）

sessionId	epoch	含义
0	-1	全量拉取（没有使用或者创建session时）
0	0	全量拉取（如果是新的会话，epoch从1开始）
`$ID`	0	关闭标识为`$ID`的增量拉取会话，并创建一个新的全量拉取
`$ID`	`$EPOCH`	创建增量拉取

对于客户端而言，什么时候一个分区会被包含到增量的拉取请求中：

客户端通知Broker，分区的maxBytes,fetchOffset,logStartOffset改变了
分区在之前的增量拉取会话中不存在，客户端想要增加这个分区（拉取新的分区）
分区在增量拉取会话中，客户端要移除

Fetch Response Metadata（服务端返回给客户端的sessionId）

sessionId	含义
0	之前没有创建过拉取回话
`$ID`	下一个请求会是增量的拉取请求，并且sessionId是`$ID`

服务端增加分区包含到增量的拉取响应中：

Broker通知客户端分区的hw或者brokerLogStartOffset变化了
分区有新的数据

源码解析

Fetcher.java#sendFetches(): prepareFetchRequests创建FetchSessionHandler.FetchRequestData。
构建拉取请求通过FetchSessionHandler.Builder，builder.add(partition, PartitionData)会添加next：
即要拉取的分区。构建时调用Builder.build()，针对Full拉取：

// FetchSessionHandler.Builder.build()
if (nextMetadata.isFull()) { // epoch=0或者-1
    sessionPartitions = next; // next为之前调动add添加的分区
    next = null; // 本地full拉取，下次next=null
    Map toSend = Collections.unmodifiableMap(new LinkedHashMap<>(sessionPartitions));
    return new FetchRequestData(toSend, Collections.emptyList(), toSend, nextMetadata);
}

收到响应结果后，通过sessionHandler，调用FetchSessionHandler.handleResponse()。
假设第一次是Full拉取，响应结果没有出错时，nextMetadata.isFull()仍然为true。
假设服务端创建了一个新的session（随机的唯一ID），客户端的Fetch SessionId会设置为服务端返回的sessionId，
并且epoch会增加1。这样下次客户端的拉取就不再是Full，而是Increment了（toSend, toForget分别表示要拉取的和不需要拉取的）。
同样假设服务端正常处理（这次不会生成新的session），客户端也正常处理响应，则sessionId不会增加，但是epoch会增加1

public boolean handleResponse(FetchResponse response) {
    if (response.error() != Errors.NONE) {
        log.info("Node {} was unable to process the fetch request with {}: {}.",
            node, nextMetadata, response.error());
        if (response.error() == Errors.FETCH_SESSION_ID_NOT_FOUND) {
            nextMetadata = FetchMetadata.INITIAL;
        } else {
            nextMetadata = nextMetadata.nextCloseExisting();
        }
        return false;
    } else if (nextMetadata.isFull()) {
        String problem = verifyFullFetchResponsePartitions(response);
        if (problem != null) {
            log.info("Node {} sent an invalid full fetch response with {}", node, problem);
            nextMetadata = FetchMetadata.INITIAL;
            return false;
        } else if (response.sessionId() == INVALID_SESSION_ID) {
            log.debug("Node {} sent a full fetch response{}",
                node, responseDataToLogString(response));
            nextMetadata = FetchMetadata.INITIAL;
            return true;
        } else {
            // The server created a new incremental fetch session. 客户端正常处理全量拉取的响应
            log.debug("Node {} sent a full fetch response that created a new incremental " +
                "fetch session {}{}", node, response.sessionId(), responseDataToLogString(response));
            nextMetadata = FetchMetadata.newIncremental(response.sessionId());
            return true;
        }
    } else {
        String problem = verifyIncrementalFetchResponsePartitions(response);
        if (problem != null) {
            log.info("Node {} sent an invalid incremental fetch response with {}", node, problem);
            nextMetadata = nextMetadata.nextCloseExisting();
            return false;
        } else if (response.sessionId() == INVALID_SESSION_ID) {
            // The incremental fetch session was closed by the server.
            log.debug("Node {} sent an incremental fetch response closing session {}{}",
                node, nextMetadata.sessionId(), responseDataToLogString(response));
            nextMetadata = FetchMetadata.INITIAL;
            return true;
        } else {
            // The incremental fetch session was continued by the server. 客户端正常处理增量拉取的响应结果
            log.debug("Node {} sent an incremental fetch response for session {}{}",
                node, response.sessionId(), responseDataToLogString(response));
            nextMetadata = nextMetadata.nextIncremental();
            return true;
        }
    }
}

服务端处理拉取请求时，会创建不同类型的FetchContext：

SessionErrorContext：拉取会话错误（比如epoch不相等）
SessionlessFetchContext：不需要拉取会话（旧版本）
IncrementalFetchContext：增量拉取
FullFetchContext：全量拉取

// KafkaApis.handleFetchRequest
    val fetchContext = fetchManager.newContext(
      fetchRequest.metadata,
      fetchRequest.fetchData,
      fetchRequest.toForget,
      fetchRequest.isFromFollower)

    // 针对不同的拉取上下文，分别更新并生成响应数据
    unconvertedFetchResponse = fetchContext.updateAndGenerateResponseData(partitions)

服务端的FetchManager创建Context时，如果FetchMetadata.isFull，再判断epoch=-1时，类型为SessionlessFetchContext，
否则（epoch=0）时，类型为FullFetchContext。如果!isFull()，必须保证session.epoch = FetchMetadata.epoch，否则类型为SessionErrorContext。
当!isFull且epoch相等时，先增加session.epoch（服务端的epoch，即为客户端下次拉取的epoch），然后返回类型为IncrementalFetchContext。

FullFetchContext更新响应数据，对于全量拉取，一般是新会话，所以需要更新缓存

override def updateAndGenerateResponseData(updates: FetchSession.RESP_MAP): FetchResponse[Records] = {
  def createNewSession: FetchSession.CACHE_MAP = {
    val cachedPartitions = new FetchSession.CACHE_MAP(updates.size)
    updates.entrySet.asScala.foreach(entry => {
      val part = entry.getKey
      val respData = entry.getValue
      val reqData = fetchData.get(part)
      cachedPartitions.mustAdd(new CachedPartition(part, reqData, respData))
    })
    cachedPartitions
  }
  val responseSessionId = cache.maybeCreateSession(time.milliseconds(), isFromFollower,
      updates.size, () => createNewSession)
  debug(s"Full fetch context with session id $responseSessionId returning " +
    s"${partitionsToLogString(updates.keySet)}")
  new FetchResponse(Errors.NONE, updates, 0, responseSessionId)
}

def maybeCreateSession(now: Long,
                       privileged: Boolean,
                       size: Int,
                       createPartitions: () => FetchSession.CACHE_MAP): Int =
synchronized {
  // If there is room, create a new session entry.
  if ((sessions.size < maxEntries) ||
      tryEvict(privileged, EvictableKey(privileged, size, 0), now)) {
    val partitionMap = createPartitions()
    // 这里创建一个新的session时，同时也会增加epoch，从0到1
    val session = new FetchSession(newSessionId(), privileged, partitionMap,
        now, now, JFetchMetadata.nextEpoch(INITIAL_EPOCH))
    debug(s"Created fetch session ${session.toString}")
    sessions.put(session.id, session)
    touch(session, now)
    session.id
  } else {
    debug(s"No fetch session created for privileged=$privileged, size=$size.")
    INVALID_SESSION_ID
  }
}

总结下客户端和服务端的Full拉取过程：

1.客户端创建的拉取请求FetchMetadata.isFull()，初始时epoch=0
2.服务端创建的FetchContext类型为FullFetchContext
3.服务端创建新的Session(xxx)，以及初始化epoch=1(0+1=1)，并缓存
4.客户端收到服务端的FetchResponse，设置FetchMetadata.sessionId为response中的sessionId(xxx)，并增加epoch=1(从步骤1的0+1=1)
5.客户端继续拉取，isFull=false，sessionId=xxx, epoch=1
6.服务端创建的FetchContext类型为IncrementalFetchContext（满足session.epoch=reqMetadata.epoch=1, isFull=false）
7.服务端增加epoch，设置session.epoch=2，为下次的拉取（对比epoch）做准备
8.对reqMetadata.epoch加1(=2)然后对比session.epoch(2)，如果不等，返回错误码INVALID_FETCH_SESSION_EPOCH，相等返回NONE
9.客户端收到服务端的FetchResponse，设置epoch增加1（sessionId没有变化时，不需要更新sessionId，实际上设置的是nextMetadata对象）

Kafka技术内幕

2017-12-31T16:00:00.000Z

《Kafka技术内幕》
图灵社区主页 |
ChinaPub购买链接 |
京东购买链接 |

Update:

2017-11-22: 公司内部做的一个分享：Kafka构建流式数据处理平台

本书介绍：

本书主要以0.10版本的Kafka源码为基础，并通过图文详解的方式分析Kafka内部组件的实现细节，全书原创的图片有近400幅。对于Kafka流处理的一些新特性，也会分析0.11版本的相关源码。本书各个章节的主要内容如下。

第一章首先介绍了Kafka作为流式数据平台的三个组成，包括消息系统、存储系统、流处理系统。Kafka基本概念的三种模型，包括分区模型、消费模型、分布式模型。然后介绍了Kafka几个比较重要的设计思路，最后介绍了如何在一台机器上模拟单机模式与分布式模式，以及如何搭建源码开发环境。
第二章从一个生产者的示例开始，引出了新版本生产者的两种消息发送方式。生产者客户端利用记录收集器、发送线程，对消息集进行分组和缓存，并为目标节点创建生产请求，发送到不同的代理节点。接着介绍了与网络相关的Kafka通道、选择器、轮询等NIO操作。另外还介绍了Scala版本的旧生产者，它使用阻塞通道的方式发送请求。最后介绍了服务端采用Reactor模式处理客户端的请求。
第三章首先介绍了消费者相关的基础概念，然后从一个消费者的示例开始，引出了基于ZooKeeper的高级消费者API，理解高级API主要是要理解消费线程的模型以及变量的传递方式。接着介绍了消费者提交分区偏移量的两种方式。最后，我们举了一个低级API的示例，开发者需要自己实现一些比较复杂的逻辑处理才能保证消费程序的健壮性和稳定性。
第四章介绍了新版本的消费者，不同于旧版本的消费者，新版本去除了ZooKeeper的依赖，统一了旧版本的高级API和低级API，并提供了两种消费方式：订阅和分配。新版本引入订阅状态来管理消费者的订阅信息、并使用拉取器拉取消息。新版本的消费者没有使用拉取线程，而是采用轮询的方式拉取消息，它的性能比旧版本的消费者更好。另外还介绍了消费者采用回调器、处理器、监听器、适配器、组合模式、链式调用等实现不同类型的异步请求。最后，我们介绍了新消费者的心跳任务、提交偏移量以及三种消息处理语义的使用方式。
第五章介绍了新版本消费者相关的协调者实现，主要包括“加入组”与“同步组”。每个消费者都有一个客户端的协调者，服务端也有一个消费组级别的协调者负责处理所有消费者客户端的请求。当消费组触发再平衡操作，服务端的协调者会记录消费组元数据的变化，并通过状态机保证消费组状态的正常转换。本章会通过很多不同的示例场景来帮助读者理解消费组相关的实现。
第六章介绍了Kafka的存储层实现，包括日志的读写、日志的管理、日志的压缩等一些常用的日志操作。服务端通过副本管理器处理客户端的生产请求和拉取请求。接着介绍了副本机制相关的分区、副本、最高水位、复制点等一些概念。最后介绍了延迟操作接口与延迟缓存。服务端如果不能立即返回响应结果给客户端，会先将延迟操作缓存起来，直到请求处理完成或超时。
第七章介绍了作为服务端核心的Kafka控制器，它主要负责管理分区状态机和副本状态机，以及多种类型的监听器，比如代理节点上线和下线、删除主题、重新分配分区等。控制器的一个重要职责是选举分区的主副本。不同代理节点根据控制器下发的请求，决定成为分区的主副本还是从副本。另外，我们还分析了本地副本与远程副本的区别，以及元数据缓存的作用。
第八章首先介绍了两种集群的同步工具：Kafka内置的MirrorMaker和Uber开源的uReplicator。接着介绍了新版本Kafka提供的连接器框架，以及如何开发一个自定义的连接器。然后介绍了连接器的架构模型的具体实现，主要包括数据模型、Connector模型、Worker模型。
第九章介绍了Kafka流处理的两种API：低级Processor API和高级DSL。本章我们重点介绍了流处理的线程模型，主要包括流实例、流线程、流任务。我们还介绍了流处理的本地状态存储，它主要用来作为备份任务的数据恢复。高级DSL包括两个组件：KStream与KTable，它们都定义了一些常用的流处理算子操作，比如无状态的操作（过滤、映射等）、有状态的操作（连接、窗口等）。
第十章介绍了Kafka的一些高级特性，比如客户端的配额、新的消息格式、事务特性。

本书相关的示例代码在笔者的Github主页https://github.com/zqhxuyuan/kafka-book上，另外，限于篇幅，本书的附录部分会放在个人博客上。由于个人能力有限，文中的错误在所难免，读者在阅读本书的过程中，发现不妥之处，可以私信笔者的微博：http://weibo.com/xuyuantree，笔者会定期将勘误表更新到个人博客上。

English Introduce

《Apache Kafka Internal》

This book mostly based on Kafka-0.10, and some part of 0.11 for streaming. It has nearly 400 pictures to analysis Kafka internal implementation. The book written from client to coordinator, from storage to controller, and also including Kafka Connect and Kafka Streams. Here is content introduction of each chapter:

Chapter 1: Being a streaming platform, kafka composed of message system, storage and streaming processing. There are three model of Kafka basic concepts: Partition model, Consumer model and Distributed model. We also introduce some important design ideas of kafka, such as file system persistent, data transformation, producer and consumer, replication and HA.

Chapter 2: From a producer example into how client send message. The whole workflow include record accumulator, sender thread, grouping message, create request and at last send to different target broker. Then we introduce Kafka channel, selector and also how server use NIO reactor to handle client request.

Chapter 3: From a old high-level consumer example into zookeeper based api. The most important of high-level consuemr is consumer thread model. Then we introduce two approach to commit consumer offset which is zookeeper or internal topic. After that, we illustrate how to write low-level consumer to ensure processing messages stability and robust.

Chapter 4: New version consumer client use subscription state and polling fetch instead of fetcher thread. We also introduce how consumer use callback, handler, listener, adapter, chain to implement different asynchronous request mode. Last we introduce heartbeat, offset commit and three consumer processing semantic: at-most-once,at-least-once,exactly-once.

Chapter 5: New consumer communicate with server coordinator by ConsumerCoordinator, there’re mainly two request/response involved: Join-group and Sync-group. This process also called consumer group rebalance. We also discussed how server coordinator use state machine to ensure group state transformation, such as PreparingRebalance,AwaitingSync,Stable. This chapter also give some different scene to help reader understand how consumer group worked in production environment.

Chapter 6: Kafka’s storage layer process include log read/write, log manager, log compaction. In server side, ReplicationManager is responsible for client’s request. Then we introduce Replication mechanism concepts, such as Partition, Replication, HW, LEO. Last we introduce delayed operation and delayed purgatory. If server can’t response immediately to client, they have to cache request and send response to client some times later.

Chapter 7: Kafka Controller component is in charge of managing PartitionState, ReplicationState, and some listeners, such as broker up/down, topic deletion, partition reassign. The main duty of controller is selecting partition’s leader and sent LeaderAndIsr request down to brokers. Target brokers receiving request will decide to be partition leader or follower. Furthermore, we introduce the different between local replication and remote replication, also the function of metadata cache.

Chapter 8: First we introduce two kind of cluster synchronization: Kafka internal MirrorMaker and Uber open sourced uReplicator, we also show how apache helix build replicated uReplicator. Next we introduce new build-in kafka connect framework and how to develop a custom connector plugin. Then we deep into connector’s architecture, mainly concentrate on data model, connector model, worker model.

Chapter 9: Introduce Kafka Streams two api: low-level processor and high-level DSL. This chapter focus on streaming thread model, including stream instance, thread and task. We also introduce local state store used by standby task for recovery. After that, we introduce two abstract components in High-level DSL: KStream and KTable, they both based on low-level processor, support common operator and advance function, such as window, join and so on.

Chapter 10: Introduce some advanced features. such as client quota, new message format in 0.11 and also transaction support.

勘误表

TODO

下面是以前写的一些博客，当然实际的书籍已经改动很大了，下面的一些博文仅供参考。

Introduce

源码分析汇总

新消费者

☆☆☆☆☆译：使用新的Kafka消费者客户端

Kafka Connect

Kafka Streams

Kafka技术内幕附录

2017-12-30T16:00:00.000Z

Kafka技术内幕附录

第11章：附录

11.1 Kafka基本操作

11.1.1 创建、修改、删除、查看主题

我们可以手动创建主题或者让Kafka自动创建主题，手动创建主题必须指定分区数和副本因子。如果服务端开启了自动创建主题，新数据写入一个不存在的主题，服务端会自动创建这个主题。自动模式下主题的配置信息在server.properties文件中，比如分区数默认只有一个。因为分区是Kafka的最小并行单位，所以我们一般会根据集群规模设置合理的分区数，来达到客户端和服务端的负载均衡。副本因子（replication-factor）是分区的副本数量，每条消息会复制到多个节点上，一般设置为3个副本。假设副本数为N，则最多允许N - 1个节点宕机。下面的实验在本机安装Kafka，假设ZK的端口为2181，Kafka的端口为9092。

# 创建主题
$ bin/kafka-topics.sh --zookeeper localhost:2181 --create \
    --topic test --partitions 1 --replication-factor 3
# 修改主题的分区数
$ bin/kafka-topics.sh --zookeeper localhost:2181 --alter \
    --topic test --partitions 2
# 列出所有的主题
$ bin/kafka-topics.sh --list --zookeeper localhost:2181
test
# 查看某个主题的详细信息
$ bin/kafka-topics.sh --describe --zookeeper localhost:2181 --topic test
Topic:test  PartitionCount:1    ReplicationFactor:1 Configs:
    Topic: test Partition: 0    主副本: 0   Replicas: 0 Isr: 0

在0.8.2版本之后，Kafka提供了删除主题的功能，但是默认并不会直接将Topic数据物理删除。如果要启用物理删除（即删除主题后，日志文件也会一同删除），需要在server.properties中设置delete.topic.enable=true。

$ bin/kafka-topics.sh --zookeeper localhost:2181 --delete --topic test
Topic test is marked for deletion.
Note: This will have no impact if delete.topic.enable is not set to true.

$ bin/kafka-topics.sh --list --zookeeper localhost:2181
test - marked for deletion

管理员创建好主题后，主题会被生产者和消费者使用。注意下面的实验中，新版本的生产者和消费者都是使用Broker地址连接Kafka集群，旧版本的消费者则使用ZK地址连接Kafka集群。

11.1.2 生产者和消费者

在终端控制台模拟生产消息和消费消息，每个控制台的消费者都会被分配唯一的消费组：

# 生产者
$ bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
1
2
3
4
5
# 旧消费者（控制台）
$ bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test
1
2
3
4
5
# 新消费者（控制台）
$ bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 \
  --new-consumer --topic test --from-beginning

执行查看消费组列表的操作，可以列出当前活动的消费组，默认控制台的消费组是console-consumer加上一个随机数。上面由于分别启动了两个版本的消费者，所以对应了两个消费组。当然，也可以在控制台通过其他参数来指定消费组。

# 查看使用旧消费者的消费组列表
$ bin/kafka-consumer-groups.sh --list --zookeeper localhost:2181
console-consumer-36296
# 查询使用新消费者的消费组列表
$ bin/kafka-consumer-groups.sh --list --bootstrap-server localhost:9092
console-consumer-89231

查看消费组对某个主题的消费状态，需要指定主题和消费组，这会打印出主题的所有分区、日志的大小、所属的消费者等。
采用新消费者方式的Owner为none：

$ bin/kafka-consumer-offset-checker.sh --zookeeper localhost:2181 \
  --topic test --group console-consumer-36296
Group         Topic Pid Offset logSize Lag Owner
console-36296 test  0   2      2       0   dp0652-f94edaea-0
console-36296 test  1   1      1       0   dp0652-f94edaea-0
console-36296 test  2   2      2       0   dp0652-f94edaea-0

$ bin/kafka-consumer-offset-checker.sh --zookeeper localhost:2181 \
  --topic test --group console-consumer-89231
Group         Topic Pid Offset logSize Lag Owner
console-89231 test  0   2      2       0   none
console-89231 test  1   1      1       0   none
console-89231 test  2   2      2       0   none

11.1.3 扩展集群

要向已有的Kafka集群添加新节点，我们只需要保证broker.id编号是唯一的，即可启动Kafka服务。但是新节点不会自动地分配到分区，除非在新加节点之后，新创建了主题。因此，通常我们希望在新添加节点后，能够将旧节点上的分区迁移一部分到新节点上，从而达到负载均衡的目的。迁移分区，实际上是将新节点作为分区的备份副本，当新节点完全复制了一个分区的所有数据，并且加入分区的ISR集合后，旧节点已有的一个副本就会被删除。在整个迁移过程中，分区的副本数保持不变，只不过分区的所属节点从旧节点迁移到了新节点。Kafka提供了分区重新分配（partition reassignment tool）的工具来在不同节点之间移动分区，但该工具并不会自动学习Kafka集群的数据分布来移动分区达到数据的均匀分布，管理员需要手动指定哪些主题或分区需要移动。使用该工具需要执行下面的3个步骤。

--generate：给定主题和需要移动到的目标节点，生成候选的分区分配计划。
--execute：根据上一步的分区分配计划或者手动定义的计划执行数据迁移的任务。
--verify：验证上一步执行任务涉及的所有分区的分配状态是否已经完成。

下面的示例会将foo1和foo2主题的所有分区全部移动到新的节点5、6上，最后这两个主题的所有分区都只在5、6节点上。第一步生成计划时，会列举出当前主题所有分区目前所在的节点，如果执行失败，管理员还可以进行回滚操作。

# [1] 生成分区分配计划，指定需要移动的主题和需要移动到的目标节点
$ cat topics-to-move.json
{"topics": [{"topic": "foo1"}, {"topic": "foo2"}], "version":1}
$ bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 
    --topics-to-move-json-file topics-to-move.json \
    --broker-list "5,6" --generate
Current partition replica assignment
{"version":1, "partitions":[
    {"topic":"foo1","partition":2,"replicas":[1,2]},
    {"topic":"foo1","partition":0,"replicas":[3,4]},
    {"topic":"foo2","partition":2,"replicas":[1,2]},
    {"topic":"foo2","partition":0,"replicas":[3,4]},
    {"topic":"foo1","partition":1,"replicas":[2,3]},
    {"topic":"foo2","partition":1,"replicas":[2,3]}]
}

Proposed partition reassignment configuration
{"version":1, "partitions":[{"topic":"foo1","partition":2,"replicas":[5,6]},
    {"topic":"foo1","partition":0,"replicas":[5,6]},
    {"topic":"foo2","partition":2,"replicas":[5,6]},
    {"topic":"foo2","partition":0,"replicas":[5,6]},
    {"topic":"foo1","partition":1,"replicas":[5,6]},
    {"topic":"foo2","partition":1,"replicas":[5,6]}]
}

# [2] 执行分区重新分配的任务
$ bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 \
  --reassignment-json-file expand-cluster-reassignment.json --execute

# [3] 验证分区重新分配的进度
$ bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 \
    --reassignment-json-file expand-cluster-reassignment.json --verify
Status of partition reassignment:
Reassignment of partition [foo1,0] completed successfully
Reassignment of partition [foo1,1] is in progress
Reassignment of partition [foo1,2] is in progress
Reassignment of partition [foo2,0] completed successfully
Reassignment of partition [foo2,1] completed successfully
Reassignment of partition [foo2,2] completed successfully

除了给定主题，由工具生成所有分区的执行计划，我们也可以直接指定主题需要迁移的分区（当然在execute阶段，工具还是会列出指定主题分区当前所在的节点）：

$ cat custom-reassignment.json
{"version":1,"partitions":[
  {"topic":"foo1","partition":0,"replicas":[5,6]},
  {"topic":"foo2","partition":1,"replicas":[2,3]}
]}
$ bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 \
  --reassignment-json-file custom-reassignment.json --execute
Current partition replica assignment
{"version":1, "partitions":[
  {"topic":"foo1","partition":0,"replicas":[1,2]},
  {"topic":"foo2","partition":1,"replicas":[3,4]}]
}

Save this to use as the --reassignment-json-file option during rollback
Successfully started reassignment of partitions
{"version":1, "partitions":[
  {"topic":"foo1","partition":0,"replicas":[5,6]},
  {"topic":"foo2","partition":1,"replicas":[2,3]}]
}

除此之外，迁移工具还适用于给分区增加副本数。增加副本数是复制（而不是移动）已有的分区到其他节点，不管使用手动还是自动生成的分配计划，都要包含分区之前所在的节点。下面的示例中，foo主题的分区0只有一个副本是存在节点5上，增加到3个副本后，存在的节点有5、6、7这3个节点。

$ cat increase-replication-factor.json
{"version":1, "partitions":[
    {"topic":"foo","partition":0,"replicas":[5,6,7]}]
}
$ bin/kafka-reassign-partitions.sh --zookeeper localhost:2181 \
    --reassignment-json-file increase-replication-factor.json --execute
Current partition replica assignment
{"version":1, "partitions":[{
    "topic":"foo","partition":0,"replicas":[5]}]
}

Save this to use as the --reassignment-json-file option during rollback
Successfully started reassignment of partitions
{"version":1, "partitions":[
    {"topic":"foo","partition":0,"replicas":[5,6,7]}]
}

# 副本数为一个时的主题信息
$ bin/kafka-topics.sh --zookeeper localhost:2181 --topic foo --describe
Topic:foo PartitionCount:1  ReplicationFactor:1 Configs:
    Topic: foo  Partition: 0  主副本: 5 Replicas: 5 Isr: 5

# 增加副本数后的主题信息
$ bin/kafka-topics.sh --zookeeper localhost:2181 --topic foo --describe
Topic:foo PartitionCount:1  ReplicationFactor:3 Configs:
    Topic: foo  Partition: 0  主副本: 5 Replicas: 5,6,7 Isr: 5,6,7

注意：修改主题的分区数可以直接采用修改主题的方式，但是修改分区的副本数涉及数据的复制，需要用到上面的分区迁移工具。

11.2 安全机制（`Security`）

Kafka的安全机制主要分为下面两个部分：

身份认证（Authentication）：对客户端与服务器的连接进行身份认证。Kafka目前支持SSL、SASL/Kerberos、SASL/PLAIN三种认证机制。
权限控制（Authorization）：对消息级别的访问控制列表（ACL）权限控制。

下面以SASL/PLAIN的身份认证为例，服务端需要先修改下面三个配置文件，然后启动服务端：

$ vi config/server.properties
listeners=SASL_PLAINTEXT://localhost:9092
security.inter.broker.protocol=SASL_PLAINTEXT
sasl.mechanism.inter.broker.protocol=PLAIN
sasl.enabled.mechanisms=PLAIN

$ vi config/jaas.conf
KafkaServer {
  org.apache.kafka.common.security.plain.PlainLoginModule required
  username="admin"
  password="admin"
  user_admin="admin"
};
KafkaClient {
  org.apache.kafka.common.security.plain.PlainLoginModule required
  username="admin"
  password="admin";
};

$ vi bin/kafka-run-class.sh
KAFKA_SASL_OPTS="-Djava.security.auth.login.config=../config/jaas.conf"
KAFKA_OPTS="$KAFKA_SASL_OPTS $KAFKA_OPTS"

客户端也需要添加两个配置项，下面以控制台的生产者和消费者为例，说明客户端的身份认证：

$ vi config/producer.properties
security.protocol=SASL_PLAINTEXT
sasl.mechanism=PLAIN

$ vi config/consumer.properties
security.protocol=SASL_PLAINTEXT
sasl.mechanism=PLAIN

$ bin/kafka-console-producer.sh --broker-list localhost:9092 \
  --topic test-security --producer.config config/producer.properties
hello

$ bin/kafka-console-consumer.sh --new-consumer \
  --bootstrap-server localhost:9092 --topic test-security \
  --from-beginning --consumer.config config/consumer.properties
hello

如果使用代码，还需要设置java.security.auth.login.config为系统的环境变量配置。下面是生产者使用身份认证的示例：

public class KafkaProducerDemo {
  public static void main(String[] args) {
    // 设置客户端登陆的身份认证机制，指定配置文件
    System.setProperty("java.security.auth.login.config", 
      "/Users/zhengqh/.../resources/kafka_client_jaas.conf");
    Properties props = new Properties();
    props.put("bootstrap.servers", "localhost:9092");
    props.put("client.id", "DemoProducer");
    props.put("key.serializer", "org.apache.kafka.common.serialization.IntegerSerializer");
    props.put("value.serializer",  "org.apache.kafka.common.serialization.StringSerializer");
    props.put("security.protocol", "SASL_PLAINTEXT"); // 安全协议类型
    props.put("sasl.mechanism", "PLAIN"); // 安全机制
    KafkaProducer producer = new KafkaProducer<>(props);
    ProducerRecord record1 = new ProducerRecord("test-security", 1, "one");
    producer.send(record1, new Callback() {
      public void onCompletion(RecordMetadata recordMetadata,Exception e){
        System.out.println(recordMetadata);
      }
    });
    producer.flush();
    producer.close();
  }
}

上面我们只分析了SASL_PLAINTEXT安全协议的例子，Kafka支持的其他安全协议以及权限认证可以参考官方的文档。另外，服务端与ZooKeeper以及服务端之间也都有安全机制和身份认证机制，这里就不再深入分析。

11.3 Kafka配置

Kafka官方文档中针对服务端（代理节点）、主题、生产者、消费者都有完整的配置说明，下面列举了比较重要的一些配置项。

11.3.1 服务端的配置项

服务端的配置项参见表1。

表1 服务端配置信息

配置项	说明
`broker.id`	Kafka服务器的编号，同一个集群不同节点的编号应该唯一
`zookeeper.connect`	连接ZooKeeper的地址，不同Kafka集群如果连接到同一个ZooKeeper，应该使用不同的chroot路径
`auto.create.topics.enable`	自动创建主题，默认为`true`
`auto.leader.rebalance.enable`	开启主副本自动平衡，当节点宕机后，会影响这个节点上的主副本转移到其他节点，宕机的节点重启后只能作为备份副本，如果开启平衡，则会将主副本转移到原节点
`delete.topic.enable`	自动删除主题，默认为`false`，通过`delete`命令删除主题，并不会物理删除，只有开启该选项才会真正删除主题的日志文件
`log.dirs`	日志文件的目录，可以指定多个目录。默认是/tmp/kafka-logs
`log.flush.interval.messages`	在消息集刷写到磁盘之前需要收集的消息数量，默认值为`Long.MAX`
`log.flush.scheduler.interval.ms`	日志刷新线程过久，检查一次是否有日志文件需要刷写到磁盘，默认值为`Long.MAX`。
`log.retention.bytes`	日志文件超过最大大小时删除旧数据，默认值为`-1`，即永不会删除
`log.retention.hours`	日志文件保留的时间，默认为168小时，即7天
`log.segment.bytes`	单个日志文件片段的最大值，默认为1 GB，日志超过1 GB后会刷写到磁盘
`message.max.bytes`	服务端接收的消息最大值，默认为1 MB，即一批消息最大不能超过1 MB
`min.insync.replicas`	当生产者的应答策略设置为`all`时，写操作的数量必须满足该值才算成功。默认值为`1`，表示只要写到一个节点就算成功
`offsets.commit.required.acks`	消费者提交偏移量和生产者写消息的行为类似，用应答来表示写操作是否成功，默认值为`-1`
`offsets.commit.timeout.ms`	类似于生产者的请求超时时间，写请求会被延迟，默认5秒
`offsets.topic.num.partitions`	消费者提交偏移量内部主题的分区数量，默认为50个
`offsets.topic.replication.factor`	消费者提交偏移量内部主题的副本数量，默认为3个
`replica.fetch.min.bytes`	每个拉取请求最少要拉取的字节数量，默认为1byte。
`replica.fetch.wait.max.ms`	每个拉取请求的最大等待时间，默认为500毫秒
`replica.lag.time.max.ms`	备份副本在指定时间内都没有发送拉取请求，或者在这个时间内仍然没有赶上主副本，它将会被从ISR中移除，默认10秒
`request.timeout.ms`	客户端从发送请求到接收响应的超时时间，默认30秒
`zookeeper.session.timeout.ms`	ZooKeeper会话的超时时间，默认6秒
`default.replication.factor`	自动创建的主题的副本数，默认为1个
`log.cleaner.delete.retention.ms`	被删除的记录保存的时间，默认为1天
`log.cleaner.enable`	是否开启日志清理线程，当清理策略为`compact`时，建议开启
`log.index.interval.bytes`	添加1条索引到日志文件的间隔，默认为4096条
`log.index.size.max.bytes`	索引文件的最大大小，默认为10 MB
`num.partitions`	每个主题的分区数量，默认为1个
`replica.fetch.max.bytes`	拉取请求中每个分区的消息最大值，默认为1 MB
`replica.fetch.response.max.bytes`	整个拉取请求的消息最大值，默认为10 MB

主题级别的一些配置和服务端级别的设置类似，比如flush.messages类似log.flush.interval.messages，表示刷写到磁盘的消息数量；flush.ms类似log.flush.scheduler.interval.ms，表示刷写到磁盘的时间间隔；max.message.bytes类似message.max.bytes，表示服务端接收的单条消息大小。

11.3.2 生产者的配置项

生产者配置信息参见表2。

表2 生产者配置信息

配置项	说明
`bootstrap.servers`	生产者客户端连接Kafka集群的地址和端口，多个节点用逗号分隔
`acks`	生产者请求要求主副本收到的应答数量满足后，写请求才算成功。`0`表示记录添加到网络缓冲区后就认为已经发送，生产者不会等待服务端的任何应答；`1`表示主副本会将记录到本地日志文件，但不会等待任何备份副本的应答；`-1`或`all`表示主副本必须等待ISR中所有副本都返回应答给它
`retries`	发送时出现短暂的错误或者收到错误码，客户端会重新发送记录。如果`max.in.flight.requests.per.connection`没有设置为`1`，在异常重试时，服务端收到的记录可能是乱序的
`buffer.memory`	生产者发送记录给服务端在客户端的缓冲区，默认为32 MB
`batch.size`	当多条记录发送到同一个分区，生产者会尝试将一批记录分成更少的请求，来提高客户端和服务端的性能，默认每一个Batch的大小为16 KB。如果一条记录就超过了16 KB，则这条记录不会和其他记录组成Batch。Batch太小会减小吞吐量，Batch太大会占用太多的内存
`max.request.size`	一个请求的最大值，实际上也是记录的最大值。注意服务端关于记录的最大值（Broker的`message.max.bytes`，或者Topic的`max.message.bytes`）可能和它不同（实际上默认值都是1 MB）。这个配置项会限制生产者一个请求中Batch的记录数，防止发送过大的请求
`partitioner.class`	消息的分区语义，对消息进行路由到指定的分区，实现分区接口
`request.timeout.ms`	客户端等待一个请求的响应的最长时间，超时后客户端会重新发送或失败
`timeout.ms`	服务端等待备份的应答来达到生产者设置的`ack`的最长时间，超时后不满足失败

11.3.3 新消费者的配置项

新消费者的配置信息参见表3。

表3 新消费者的配置信息

配置项	说明
`fetch.min.bytes`	拉取请求要求服务端返回的数据最小值，如果服务端的数据量还不够，客户端的请求会一直等待，直到服务端收集到足够的数据才会返回响应给客户端。默认值为1个字节，表示服务端处理的拉取请求数据量只要达到1个字节就立即收到响应，或者因为在等待数据的到达一直没有满足最小值时而超时后，拉取请求也会结束。将该值设置大一点，可以牺牲一些延迟来获取服务端更高的吞吐量
`fetch.max.bytes`	服务端对一个拉取请求返回数据的最大值，默认值为50 MB
`fetch.max.wait.ms`	在没有收集到满足`fetch.min.bytes`大小的数据之前，服务端对拉取请求的响应会阻塞直到超时，默认500毫秒
`group.id`	消费者所述的唯一消费组名称，在使用基于Kafka的偏移量管理策略，或者使用消费组管理协议的订阅方法时，必须指定消费组名称
`heartbeat.interval.ms`	使用消费组管理协议时消费者和协调者的心跳间隔，心跳用来确保消费者的会话保持活动的状态，以及当有新消费者加入或消费者离开时可以更容易地进行平衡，该选项必须比`session.timeout.ms`小，通常设置为不大于它的1/3。默认值为3秒，我们可以将心跳值设置得更低，来更好地控制平衡：需要平衡时，心跳间隔越短就能越快地感知到
`max.partition.fetch.bytes`	服务端返回的数据中每个分区的最大值，默认值为1 MB
`session.timeout.ms`	使用消费组管理协议检测到消费者失败的最大时间，消费者定时地向Broker发送心跳表示处于存活状态。服务端的Broker会记录消费者的心跳时间，如果在指定的会话时间内都没有收到消费者的心跳，Broker会将其从消费组中移除并启动一次平衡
`auto.offset.reset`	Kafka中没有分区的初始偏移量，消费者任何定位分区位置。`earliest`表示重置到最旧的位置；`latest`表示重置到最新的位置，默认值为`latest`
`enable.auto.commit`	消费者的偏移量是否会在后台定时地提交，默认值为`true`
`auto.commit.interval.ms`	消费者自动提交偏移量的时间间隔，默认值为5秒
`max.poll.interval.ms`	使用消费组管理协议时，在调用`poll()`之间的最大延迟，它设置了消费者在下一次拉取更多记录之前允许的最长停顿时间。如果超时后消费者仍然没有调用`poll()`，那么消费者就会被认为失败了，就会启动消费组的平衡，默认值为5秒
`max.poll.records`	在一次`poll()`调用中允许返回的最大记录数，默认值为500条
`partition.assignment.strategy`	使用消费者管理协议时，消费者实例之间用来进行分区分配的策略，默认值为`RangeAssignor`

11.4 Kafka其他操作实验

11.4.1 ZooKeeper连接配置

Kafka的ZooKeeper配置和命令行的ZooKeeper地址不一致导致连接不上ZooKeeper，下面是server.properties的ZooKeeper连接配置，指定了Kafka在ZooKeeper中的根节点是/kafka：

broker.id=0
#listeners=PLAINTEXT://:9092
zookeeper.connect=localhost:2181/kafka
log.dirs=/tmp/kafka-logs

如果命令行中连接的ZooKeeper地址没有加上/kafka，创建主题会报错可用的节点为0，加上/kafka后可以成功创建主题：

$ bin/kafka-topics.sh --create --zookeeper localhost:2181 \
--replication-factor 1 --partitions 1 --topic test
Error while executing topic command : RF: 1 larger than available brokers: 0
ERROR AdminOperationException: RF: 1 larger than available brokers: 0
    at kafka.admin.AdminUtils$.assignReplicasToBrokers(AdminUtils.scala:117)
    at kafka.admin.AdminUtils$.createTopic(AdminUtils.scala:403)
    at kafka.admin.TopicCommand$.createTopic(TopicCommand.scala:110)
    at kafka.admin.TopicCommand$.main(TopicCommand.scala:61)
    at kafka.admin.TopicCommand.main(TopicCommand.scala)

$ bin/kafka-topics.sh --create --zookeeper localhost:2181/kafka \
--replication-factor 1 --partitions 1 --topic test
Created topic "test".
$ bin/kafka-topics.sh --list --zookeeper localhost:2181/kafka
test

生产者连接的是Kafka代理节点的地址，和ZooKeeper没有关系。而旧消费者连接的是ZooKeeper，所以也要加上/kafka才能读取到消息：

$ bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
this is a message
this is another message
$ bin/kafka-console-consumer.sh --zookeeper localhost:2181/kafka \
  --topic test --from-beginning
this is a message
this is another message

上面的实验通过在Kafka服务端的配置文件中设置ZooKeeper根节点，可以在一个ZooKeeper中区分多个Kafka集群。下面的实验就利用了该功能。

11.4.2 `MirrorMaker`演示消费者线程数量

单机模拟多个Kafka集群，每个集群各自只有一台服务器。不同Kafka集群的zookeeper.connect配置项分别是：localhost:2181/kafka和localhost:2181/kafka_dc（这两个集群叫作kafka集群、kafka_dc集群）。查看ZooKeeper的节点，因为是不同的Kafka集群，所以代理节点的编号可以一样（当然由于在本机模拟多个集群，端口号不能一样）：

[zk: localhost:2181(CONNECTED) 0] ls /
[kafka_dc, zookeeper, kafka]
[zk: localhost:2181(CONNECTED) 3] ls /kafka/brokers/ids
[0]
[zk: localhost:2181(CONNECTED) 4] ls /kafka_dc/brokers/ids
[0]

在Kafka集群创建分区数只有一个的主题test，然后启动MirrorMaker，设置消费者线程数量为3：

1
2
3

$ bin/kafka-mirror-maker.sh --num.streams 3 \
  --consumer.config config/consumer_source.properties \
  --producer.config config/producer_dest.properties --whitelist test

ZooKeeper中消费者的数量也有3个，但是因为分区只有一个，消费者Owner也只有一个：

[zk: localhost:2181] ls /kafka/consumers/mm/ids
[mm_zqhmac-dd52d0ea, mm_zqhmac-60c27086, mm_zqhmac-d0eece39]
[zk: localhost:2181] get /kafka/consumers/mm/owners/test/0
mm_zqhmac-60c27086-0
[zk: localhost:2181] get /kafka/consumers/mm/ids/mm_zqhmac-60c27086
{"version":1,"subscription":{"test":1},"pattern":"white_list"}

因为消费者数量比分区的数量要多，所以有些消费者会分配不到分区。在执行MirrorMaker程序时，控制台会提示有两个消费者线程没有分配到分区。

WARN No broker partitions consumed by consumer thread 
  mm_zqhmac-d0eece39-0 for topic test (kafka.consumer.RangeAssignor)
WARN No broker partitions consumed by consumer thread 
  mm_zqhmac-dd52d0ea-0 for topic test (kafka.consumer.RangeAssignor)

通过控制台的消费者检查Mirror（kafka_dc）目标集群是否有数据写入，可以看到虽然我们没有在kafka_dc集群创建test主题，但是通过镜像工具，源集群的数据会复制到目标集群。

$ bin/kafka-topics.sh --list --zookeeper localhost:2181/kafka_dc
test
$ bin/kafka-console-consumer.sh --zookeeper localhost:2181/kafka_dc \
  --topic test --from-beginning
this is third message
this is fouth message

检查消费组所有消费者的消费情况，也只有一个消费者：

$ bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker \
    --group mm --zookeeper localhost:2181/kafka --topic test
Group  Topic  Pid   Offset  logSize   Lag    Owner
mm     test   0     4       4         0      mm_zqhmac-60c27086-0

11.4.3 生产者和消费者性能测试

Kafka提供了一些工具类，包括生产者和消费者的性能测试，端到端的延迟。下面的实验是在一个小型的Kafka集群上，并且测试主题test-rep-3有3个副本、6个分区：

$ zookeeper=192.168.6.55:2181,192.168.6.56:2181,192.168.6.57:2181/kafka010
$ kafka=192.168.6.52:9092,192.168.6.52:9093,192.168.6.53:9094,192.168.6.53:9095
$ bin/kafka-topics.sh --zookeeper $zookeeper --create \
    --topic test-rep-3 --partitions 6 --replication-factor 3
$ bin/kafka-topics.sh --describe --zookeeper $zookeeper --topic test-rep-3
Topic:test-rep-3    PartitionCount:6    ReplicationFactor:3 Configs:
Topic: test-rep-3   Partition: 0    主副本: 3   Replicas: 3,2,0 Isr: 3,2,0
Topic: test-rep-3   Partition: 1    主副本: 0   Replicas: 0,3,1 Isr: 0,3,1
Topic: test-rep-3   Partition: 2    主副本: 1   Replicas: 1,0,2 Isr: 1,0,2
Topic: test-rep-3   Partition: 3    主副本: 2   Replicas: 2,1,3 Isr: 2,1,3
Topic: test-rep-3   Partition: 4    主副本: 3   Replicas: 3,0,1 Isr: 3,0,1
Topic: test-rep-3   Partition: 5    主副本: 0   Replicas: 0,1,2 Isr: 0,1,2

接着对生产者和消费者进行性能测试（笔者的测试环境还有其他服务，所以测试结果并不是很理想，如果要对Kafka进行压测，最好模拟线上的机器配置）：

#####生产者性能测试#####
$ bin/kafka-run-class.sh org.apache.kafka.tools.ProducerPerformance \
    --topic test-rep-3 --num-records 50000000 --record-size 100 \
    --throughput -1 --producer-props acks=1 buffer.memory=67108864 \
    batch.size=8196 bootstrap.servers=$kafka
## 第一次在集群内测试
50000000 records sent, 749906.261717 records/sec (71.52 MB/sec), 
50.73 ms avg latency, 1356.00 ms max latency, 
2 ms 50th, 266 ms 95th, 603 ms 99th, 1327 ms 99.9th.
## 第二次在集群内测试
50000000 records sent, 84956.858907 records/sec (8.10 MB/sec), 
5781.48 ms avg latency, 17968.00 ms max latency, 
9872 ms 50th, 16705 ms 95th, 17492 ms 99th, 17909 ms 99.9th.
## 第三次在集群外测试
50000000 records sent, 42554.459069 records/sec (4.06 MB/sec), 
11455.58 ms avg latency, 51425.00 ms max latency, 
82 ms 50th, 29290 ms 95th, 30192 ms 99th, 36732 ms 99.9th.

#####消费者性能测试#####
$ bin/kafka-consumer-perf-test.sh --zookeeper $zookeeper \
    --messages 50000000 --topic test-rep-3 --threads 1
## 第一次在集群内测试
start, end, data.consumed.in.MB, MB.sec, data.consumed.in.nMsg, nMsg.sec
17:00:32:149, 17:00:56:811, 4767.4932, 193.3133, 49990789, 2027037.1016
## 第二次在集群内测试
17:39:11:883, 17:44:03:117, 4768.3716, 16.3730, 50000000, 171683.2513

# 消费者性能测试（多线程）
$ bin/kafka-consumer-perf-test.sh --zookeeper $zookeeper \
    --messages 50000000 --topic test-rep-3 --threads 6

在生产者的测试过程中，有些分区由于网络或者其他原因会对ISR进行调整，日志如下：

1
2
3

INFO Partition [test-rep-3,1] on broker 0: Shrinking ISR from 0,1,3 to 0,1
INFO Partition [test-rep-3,5] on broker 0: Expanding ISR from 0,1 to 0,1,2
INFO Partition [test-rep-3,1] on broker 0: Expanding ISR from 0,1 to 0,1,3

这时如果查看主题信息，会发现主题中每个分区的ISR和最开始创建的时候不同。不过等生产者测试运行完毕，再过一段时间，就会恢复到刚开始的ISR，这是因为默认开启了主副本自动迁移：

$ bin/kafka-topics.sh --describe --zookeeper $zookeeper --topic test-rep-3
Topic:test-rep-3    PartitionCount:6    ReplicationFactor:3 Configs:
Topic:test-rep-3   Partition: 0    主副本: 3   Replicas: 3,2,0 Isr: 3,2
Topic:test-rep-3   Partition: 1    主副本: 0   Replicas: 0,3,1 Isr: 0,1,3
Topic:test-rep-3   Partition: 2    主副本: 1   Replicas: 1,0,2 Isr: 1,0
Topic:test-rep-3   Partition: 3    主副本: 2   Replicas: 2,1,3 Isr: 2,3
Topic:test-rep-3   Partition: 4    主副本: 3   Replicas: 3,0,1 Isr: 3
Topic:test-rep-3   Partition: 5    主副本: 0   Replicas: 0,1,2 Isr: 0,1,2

11.5 第三方工具

11.5.1 Confluent Platform

Confluent的各个组件和默认端口如下：

Component	Default Port
Zookeeper	2181
Apache Kafka brokers (plain text)	9092
Schema Registry REST API	8081
REST Proxy	8082
Kafka Connect REST API	8083
Confluent Control Center	9021

安装包主要有三个目录：

1
2
3

confluent-3.3.0/bin/        # Driver scripts for starting/stopping services
confluent-3.3.0/etc/        # Configuration files
confluent-3.3.0/share/java/ # Jars

启动各个组件：

1
2
3

./bin/zookeeper-server-start ./etc/kafka/zookeeper.properties &
./bin/kafka-server-start ./etc/kafka/server.properties &
./bin/schema-registry-start ./etc/schema-registry/schema-registry.properties &

1. 控制中心（Controll Center）

Confluent商业产品的一个重要功能是控制中心（Controll Center）。在启动控制中心之前呢，需要修改下面三个文件的配置信息：

Kafka服务端的配置文件：etc/kafka/server.properties
Kafka Connect集群的配置文件：etc/kafka/connect-distributed.properties
控制中心中心的配置文件：etc/confluent-control-center/control-center.properties

sed 's/#metric.reporters=io.confluent.metrics.reporter.ConfluentMetricsReporter/metric.reporters=io.confluent.metrics.reporter.ConfluentMetricsReporter/g' && \
sed 's/#confluent.metrics.reporter.bootstrap.servers=localhost:9092/confluent.metrics.reporter.bootstrap.servers=localhost:9092/g' && \
sed 's/#confluent.metrics.reporter.zookeeper.connect=localhost:2181/confluent.metrics.reporter.zookeeper.connect=localhost:2181/g' && \
sed 's/#confluent.metrics.reporter.topic.replicas=1/confluent.metrics.reporter.topic.replicas=1/g' \
etc/kafka/server.properties

cat <> etc/kafka/connect-distributed.properties

# Interceptor setup
consumer.interceptor.classes=io.confluent.monitoring.clients.interceptor.MonitoringConsumerInterceptor
producer.interceptor.classes=io.confluent.monitoring.clients.interceptor.MonitoringProducerInterceptor
EOF

cat <> etc/confluent-control-center/control-center.properties

# Quickstart partition and replication values
confluent.controlcenter.internal.topics.partitions=1
confluent.controlcenter.internal.topics.replication=1
confluent.controlcenter.command.topic.replication=1
confluent.monitoring.interceptor.topic.partitions=1
confluent.monitoring.interceptor.topic.replication=1
confluent.metrics.topic.partition=1
confluent.metrics.topic.replication=1
EOF

接着启动confluent-control-center和分布式的Kafka连接器集群：

1 2	bin/control-center-start etc/confluent-control-center/control-center.properties & bin/connect-distributed etc/kafka/connect-distributed.properties &

然后执行一些性能测试，比如执行生产者和消费者的性能测试脚本：

bin/kafka-topics --zookeeper localhost:2181 --create \
    --topic test-1 --partitions 1 --replication-factor 1

bin/kafka-run-class org.apache.kafka.tools.ProducerPerformance \
    --topic test-1 --num-records 50000000 --record-size 100 \
    --throughput -1 --producer-props acks=1 buffer.memory=67108864 \
    batch.size=8196 bootstrap.servers=localhost:9092

bin/kafka-consumer-perf-test --zookeeper localhost:2181 \
    --messages 50000000 --topic test-1 --threads 1

打开浏览器：http://192.168.6.53:9021，观察到页面实时显示集群的相关度量曲线图：

2. 连接器（Kafka Connect）

自带的kafka-connect-elasticsearch插件的相关文件：

[qihuang.zheng@dp0653 confluent-3.2.1]$ ll etc/kafka-connect-elasticsearch/
-rw-r--r-- 1 qihuang.zheng users 803 9月  28 16:11 quickstart-elasticsearch.properties

[qihuang.zheng@dp0653 confluent-3.2.1]$ ll share/java/kafka-connect-elasticsearch/
-rw-r--r-- 1 qihuang.zheng users  263965 9月  28 16:12 commons-codec-1.9.jar
-rw-r--r-- 1 qihuang.zheng users  434678 9月  28 16:12 commons-lang3-3.4.jar
-rw-r--r-- 1 qihuang.zheng users   61829 9月  28 16:12 commons-logging-1.2.jar
-rw-r--r-- 1 qihuang.zheng users  212164 9月  28 16:12 gson-2.4.jar
-rw-r--r-- 1 qihuang.zheng users 2256213 9月  28 16:12 guava-18.0.jar
-rw-r--r-- 1 qihuang.zheng users  177013 9月  28 16:12 httpasyncclient-4.1.1.jar
-rw-r--r-- 1 qihuang.zheng users  732765 9月  28 16:12 httpclient-4.5.1.jar
-rw-r--r-- 1 qihuang.zheng users  326724 9月  28 16:12 httpcore-4.4.4.jar
-rw-r--r-- 1 qihuang.zheng users  356091 9月  28 16:12 httpcore-nio-4.4.4.jar
-rw-r--r-- 1 qihuang.zheng users   18398 9月  28 16:12 jest-2.0.0.jar
-rw-r--r-- 1 qihuang.zheng users  216228 9月  28 16:12 jest-common-2.0.0.jar
-rw-r--r-- 1 qihuang.zheng users   44524 9月  28 16:12 kafka-connect-elasticsearch-3.2.1.jar
-rw-r--r-- 1 qihuang.zheng users   41071 9月  28 16:12 slf4j-api-1.7.21.jar
-rw-r--r-- 1 qihuang.zheng users   10680 9月  28 16:12 slf4j-simple-1.7.5.jar

Kafka技术内幕拾遗

2017-12-30T16:00:00.000Z

Kafka技术内幕拾遗

✅ 客户端元数据（Metadata）
✅ 客户端线程模型（ThreadModel）
即席查询（Interactive Query）
EOS事务（Transaction）

客户端的元数据对象

客户端的连接对象（NetworkClient）在轮询时会判断是否需要更新元数据。客户端调用元数据更新器的maybeUpdate()方法，并不一定每次都需要更新元数据。只有当元数据的超时时间（metadataTimeout）等于0时，客户端才会发送元数据请求。

1. 客户端轮询与元数据更新器

客户端调用选择器的轮询方法，最长的阻塞时间会在“轮询时间（pollTimeout）、元数据的更新时间（metadataTimeout）、请求的超时时间（requestTimeoutMs）”三者中选取最小值。如果元数据的更新时间等于0，表示客户端会立即发送元数据请求，不会阻塞。下面解释这几个时间变量的数据来源，以及它们在发送请求过程中所代表的含义。

生产者的requestTimeoutMs变量，对应的配置项是request.timeout.ms，默认值30秒。该配置表示生产者等待收到响应结果的最长时间。如果生产者在这个时间超时后没有收到响应结果，就会认为生产请求失败，它可以重新发送生产请求。
生产者的retryBackoffMs变量，对应的配置项是retry.backoff.ms，默认值100毫秒。该配置表示客户端发送请求失败时，为了避免在短时间内客户端重复地发送请求导致重试次数用光，客户端必须要等待一小会儿才允许发送新的请求。这个配置项可用于元数据请求、生产请求和拉取请求，但只有在发送失败时才会用到。该配置会传给元数据对象（元数据请求）、记录收集器（生产请求）。
生产者的lingerMs变量，对应的配置项是linger.ms，默认值为0毫秒。该配置表示生产者在发送请求之前是否会延迟等待一段时间收集更多的消息。如果等于0，表示生产者会立即发送请求。

// 客户端的网络连接对象在每次轮询之前，都会判断是否需要更新元数据
public class NetworkClient implements KafkaClient {
  private final MetadataUpdater metadataUpdater; // 元数据的更新器

  // 生产者会由发送线程调用该方法，消费者会由ConsumerNetworkClient调用该方法
  public List poll(long pollTimeout, long now) {
    long metadataTimeout = metadataUpdater.maybeUpdate(now);
    selector.poll(Utils.min(pollTimeout,metadataTimeout,requestTimeoutMs));
  }
  class DefaultMetadataUpdater implements MetadataUpdater {
    Metadata metadata;
    void maybeUpdate(long now, Node node) {
      // 这里简化了其他一些判断条件，实际的超时时间计算方式比较复杂
      long metadataTimeout = metadata.timeToNextUpdate(now);
      if(metadataTimeout == 0) // 准备发送“获取元数据”的请求
        doSend(new MetadataRequest(metadata.topics()), now);
      return metadataTimeout; 
    }
    // 处理“获取元数据请求”的响应
    void handleResponse(RequestHeader header, Struct body, long now) {
      Cluster cluster = new MetadataResponse(body).cluster();
      this.metadata.update(cluster, now); // 更新元数据的具体逻辑
    }
  }
}

客户端每次轮询收到元数据请求的响应结果后，会解析成Cluster对象，然后更新元数据对象。

2. 元数据对象

元数据对象有多个用于控制元数据更新策略的变量，相关的时间配置项主要有下面几个。

metadata.fetch.timeout.ms（生产者的maxBlockTimeMs变量，默认值为60秒）：生产者第一次发送消息，如果主题没有分区，它等待元数据更新的最长阻塞时间（第7.3.2节第三小节）。
metadata.max.age.ms（元数据的metadataExpireMs变量，默认值为五分钟）：即使不需要更新元数据，客户端也需要间隔一段时间更新一次元数据。
retry.backoff.ms（元数据的refreshBackoffMs变量，默认值为100毫秒）：客户端多次发送元数据请求，需要等待一小段时间再发送元数据请求。

元数据的更新时间主要与后两项配置有关。refreshBackoffMs变量用来计算允许更新的时间（timeToAllowUpdate），metadataExpireMs变量用来计算失效的时间（timeToExpire）。默认情况下，retry.backoff.ms等于100毫秒时，允许更新的时间一般小于0。timeToNextUpdate()方法主要取决于失效的时间，下面列举了几种不同的场景。

需要更新元数据时，失效时间等于0，表示需要立即更新元数据。
当前时间在失效阈值的范围内，即上次更新时间加上失效阈值大于当前时间，失效时间等于上次更新时间加上失效阈值，再减去当前时间，结果会大于0，表示再过指定的失效时间才需要更新元数据。
当前时间超过失效阈值的范围，即当前时间大于上次更新时间加上失效阈值，失效时间也设置为0。

注意：元数据对象的metadataExpireMs和refreshBackoffMs都是固定的值，timeToNextUpdate()方法依赖needUpdate和上次的更新时间，来计算下次更新元数据的时间。当调用元数据对象的requestUpdate()方法和update()方法时，才会分别更新needUpdate和上次的更新时间。

public final class Metadata {
  private final long refreshBackoffMs; // 更新失败时，下一次更新的补偿时间
  private final long metadataExpireMs; // 每隔多久，更细一次元数据
  private int version; // 版本号，当更新一次元数据，版本号加一
  private long lastRefreshMs; // 上一次更新的时间，更新失败也会更新这个值
  private long lastSuccessfulRefreshMs; // 上一次成功更新的时间
  private Cluster cluster; // 集群的配置信息
  private boolean needUpdate; // 是否需要更新元数据

  public synchronized int requestUpdate() {
    this.needUpdate = true; // 需要更新元数据
    return this.version; // 返回当前的版本号，这个版本号是旧的
  }
  public synchronized boolean updateRequested(){return this.needUpdate;}

  public synchronized long timeToNextUpdate(long nowMs) {
    long timeToExpire = needUpdate ? 0 : Math.max(
      this.lastSuccessfulRefreshMs + this.metadataExpireMs - nowMs, 0);
    long timeToAllowUpdate=this.lastRefreshMs+this.refreshBackoffMs-nowMs;
    return Math.max(timeToExpire, timeToAllowUpdate);
  }

  public synchronized void awaitUpdate(int lastVersion,long maxWaitMs){
    long begin = System.currentTimeMillis();
    long remainingWaitMs = maxWaitMs;
    while (this.version <= lastVersion) {
      if (remainingWaitMs != 0) wait(remainingWaitMs); // 等待
      long elapsed = System.currentTimeMillis() - begin;
      if (elapsed >= maxWaitMs) throw new TimeoutException("failed")
      remainingWaitMs = maxWaitMs - elapsed;
    }
  }
  public synchronized void update(Cluster cluster, long now) {
    this.needUpdate = false;
    this.version += 1;
    this.lastRefreshMs = now;
    this.lastSuccessfulRefreshMs = now;
    for(Listener listener:listeners) listener.onMetadataUpdate(cluster);
    this.cluster = cluster;
    notifyAll(); // 通知
  }
}

元数据对象的每个方法都加上了synchronized关键字，即使有多个客户端线程（用户线程）使用同一个生产者示例，并且访问相同的元数据对象，也是线程安全的。awaitUpdate()方法只会被生产者在的waitOnMetadata()方法调用。如果元数据的版本号（this.version）小于上一次的版本号（lastVersion），用户线程会通过wait()进入阻塞状态。调用元数据对象的update()方法，更新版本号，并通知用户线程退出awaitUpdate()方法。

元数据对象除了会更新元数据内容，还有一个保存集群配置的Cluster对象。Cluster保存了分区信息相关的变量，分区信息包括分区的主副本、ISR、AR等内容。第二章生产者客户端发送消息时，利用“分区信息”为消息指定分区编号。本章从控制器、LeaderAndIsr请求，最后到Metadata请求，与第二章的“分区信息”互相呼应，算是画上了一个圆满的句号。

public final class Cluster { // 集群配置
  private final List nodes;
  private final Set unauthorizedTopics;
  private final Map partitionsByTopicPartition;
  private final Map> partitionsByTopic;
  private final Map> availablePartitionsByTopic;
  private final Map> partitionsByNode;
  private final Map nodesById;
}
public class PartitionInfo { // 分区信息
  private final String topic;
  private final int partition;
  private final Node leader;
  private final Node[] replicas;
  private final Node[] inSyncReplicas;
}

3. 元数据更新的日志与实例

下面举例了生产者发送两条消息，为了模拟发送第一条消息时，生产者必须要等待元数据更新完成。下面的代码会在第一条消息发送完成后等待一秒钟才发送第二条消息。

// 生产者发送消息的示例
KafkaProducer producer = new KafkaProducer<>(props);
log.info("start producer client app");
Thread.sleep(1000*10);

log.info("start send #1 message...");
producer.send(new ProducerRecord("test", "m1"));
log.info("sending #1 message end..");
Thread.sleep(1000); // 等待一秒才发送第二条消息
log.info("start send #2 message...");
producer.send(new ProducerRecord("test", "m2"));
log.info("sending #2 message end..");

为了更清晰地理解元数据、NetworkClient一些变量的含义，在必要的地方加上了日志（比如needUpdate、metadataTimeout等）。将日志级别调成TRACE后，更详细的日志如下。

[18:00:04,596] TRACE Starting the Kafka producer
[18:00:04,939] DEBUG Updated cluster metadata version 1 to Cluster(
  nodes = [localhost:9092 (id: -1 rack: null)], partitions = [])
[18:00:05,077] DEBUG Starting Kafka producer I/O thread.
[18:00:05,079] INFO [NetworkClient] select timeout:30000
[18:00:05,094] DEBUG Kafka producer started
[18:00:05,094] INFO start producer client app (kafka.examples.Producer)

[18:00:15,103] INFO start send #1 message... (kafka.examples.Producer)
[18:00:15,109] TRACE Requesting metadata update for topic test. 【1】
[18:00:15,109] TRACE Waking up Sender thread for metadata update.
[18:00:15,111] INFO [Metadata] awaitUpdate begin...
[18:00:15,117] INFO [Sender] readyNodes:0
[18:00:15,117] INFO [Metadata] needUpdate: true
[18:00:15,118] INFO [MetadataUpdater] metadataTimeout: 0
[18:00:15,118] DEBUG Initialize connection to node1 for send metadata request
[18:00:15,118] DEBUG Initiating connection to node1 at localhost:9092. 【2】
[18:00:15,241] INFO [NetworkClient] metadataTimeout:0
[18:00:15,241] INFO [NetworkClient] select timeout:0
[18:00:15,246] DEBUG Completed connection to node -1

[18:00:15,246] INFO [Sender] readyNodes:0
[18:00:15,246] INFO [Metadata] needUpdate: true
[18:00:15,247] INFO [MetadataUpdater] metadataTimeout: 0
[18:00:15,443] DEBUG Sending metadata request {topics=[test]} to node -1 【3】
[18:00:15,444] INFO [NetworkClient] metadataTimeout:0
[18:00:15,444] INFO [NetworkClient] select timeout:0
[18:00:15,448] INFO [Sender] readyNodes:0
[18:00:15,448] INFO [Metadata] needUpdate: true
[18:00:15,449] INFO [NetworkClient] metadataTimeout:2147483647
[18:00:15,449] INFO [NetworkClient] select timeout:30000

[18:00:15,628] DEBUG Updated cluster metadata version 2 to Cluster( 【4】
  nodes = [192.168.199.101:9092 (id: 0 rack: null)], partitions = [
   Partition(topic=test,partition=1,leader=0,replicas=[0,],isr=[0,], 
   Partition(topic=test,partition=0,leader=0,replicas=[0,],isr=[0,], 
   Partition(topi =test,partition=2,leader=0,replicas=[0,],isr=[0,]])
[18:00:15,628] INFO [Metadata] awaitUpdate end...

[18:00:15,628] INFO [Sender] readyNodes:0
[18:00:15,628] INFO [Metadata] needUpdate: false
[18:00:15,629] INFO [NetworkClient] metadataTimeout:299839
[18:00:15,629] INFO [NetworkClient] select timeout:30000

[18:00:15,636] TRACE Sending record ProducerRecord(topic=test, partition=null,
  key=null, value=m1, timestamp=null) with callback null to topic test_0 【5】
[18:00:15,636] TRACE Allocating a new 16384 byte message buffer for test_0
[18:00:15,700] TRACE Waking up the sender, test_0 is full or a new batch 【6】
[18:00:15,700] INFO sending #1 message end.. (kafka.examples.Producer)

[18:00:15,702] INFO [accumulator] batch: test-0
[18:00:15,702] INFO [accumulator] ready expired: true
[18:00:15,702] INFO [Metadata] needUpdate: false
[18:00:15,703] DEBUG Initiating connection to node 0 at localhost:9092. 【7】
[18:00:15,704] INFO [Sender] readyNodes:0
[18:00:15,705] INFO [NetworkClient] metadataTimeout:299767
[18:00:15,705] INFO [NetworkClient] select timeout:30000
[18:00:15,706] DEBUG Completed connection to node 0

[18:00:15,706] INFO [accumulator] batch: test-0
[18:00:15,707] INFO [accumulator] ready expired: true
[18:00:15,707] INFO [Metadata] needUpdate: false
[18:00:15,707] INFO [accumulator] drained batch: test-0
[18:00:15,718] TRACE Nodes with data ready to send: [localhost:9092]
[18:00:15,719] TRACE Created 1 produce requests: [ClientRequest( 【8】
  expectResponse=true,callback=o.a.k.c.p.internals.Sender$1@6008d3ea, 
  request=RequestSend(header={.}, body={acks=1,timeout=30000,
    topic_data=[{topic=test,data=[{partition=0,
      record_set=HeapByteBuffer[pos=0 lim=36 cap=16384]
  }]}]}), createdTimeMs=1494151215706, sendTimeMs=0)]
[18:00:15,719] INFO [Sender] readyNodes:1
[18:00:15,720] INFO [NetworkClient] poll timeout:0
[18:00:15,720] INFO [NetworkClient] metadataTimeout:299761
[18:00:15,720] INFO [NetworkClient] select timeout:0
[18:00:15,720] INFO [Sender] readyNodes:0
[18:00:15,721] INFO [Metadata] needUpdate: false
[18:00:15,721] INFO [NetworkClient] metadataTimeout:299747
[18:00:15,721] INFO [NetworkClient] select timeout:30000

[18:00:15,737] TRACE Received produce response from node 0 【9】
[18:00:15,740] TRACE Produced messages to test-0 with base offset offset 11.
[18:00:15,741] INFO [Sender] readyNodes:0
[18:00:15,741] INFO [Metadata] needUpdate: false
[18:00:15,741] INFO [NetworkClient] metadataTimeout:299726
[18:00:15,741] INFO [NetworkClient] select timeout:30000

[18:00:16,705] INFO start send #2 message... (kafka.examples.Producer)
[18:00:16,706] TRACE [KafkaProducer] waitedOnMetadataMs: 0
[18:00:16,706] TRACE Sending record ProducerRecord(topic=test, partition=null,
  key=null, value=m2, timestamp=null) with callback null to test_2
[18:00:16,706] TRACE Allocating a new 16384 byte message buffer for test_2
[18:00:16,706] TRACE Waking up the sender, test_2 is full or a new batch
[18:00:16,706] INFO sending #2 message end.. (kafka.examples.Producer)

如图1所示，将上面日志中一些重要的时间点与事件抽取出来，具体步骤如下。

第一次发送消息，唤醒发送线程，等待元数据更新完成；
初始化网络连接，为发送元数据请求做准备；
生产者发送元数据请求；
收到元数据响应，更新元数据对象，步骤(1)等待元数据更新完成正式结束；
生产者发送消息的流程接着执行，为消息指定分区，追加消息到记录收集器；
创建新的批记录（RecordBatch），再次唤醒发送线程；
从记录收集器中获取准备好的目标代理节点，并初始化网络连接，准备发送生产请求；
从记录收集器中再次获取准备好的节点，并获取需要发送的数据，创建生产请求；
发送生产请求，并等待响应结果，一批记录（实际上只有一条记录）的发送流程结束。

图1 生产者发送消息与更新元数据的过程

客户端线程模型（Thread Model）

Kafka作为一个流式数据平台，对开发者提供了三种客户端：生产者/消费者、连接器、流处理。本文着重分析这三种客户端的线程模型。

消费者的线程模型

0.8版本以前的消费者客户端会创建一个基于ZK的消费者连接器，一个消费者客户端是一个Java进程，消费者可以订阅多个主题，每个主题也可以多个线程。为了让消息在多个节点被分布式地消费，提高消息处理的吞吐量，Kafka允许多个消费者订阅同一个主题，这些消费者需要满足“一个分区只能被一个消费者中的一个线程处理”的限制条件。通常，我们会将同一份相同业务处理逻辑的应用程序部署在不同机器上，并且指定一个消费组编号。当不同机器上的消费者进程启动后，所有这些消费者进程就组成了一个逻辑意义上的消费组。

消费组中的消费者数量是动态变化的，当有新消费者加入消费组，或者旧消费者离开消费组，都会触发基于ZK的消费组“再平衡”操作。当“再平衡”操作发生时，每个消费者都会在客户端执行分区分配算法，然后从全局的分配结果中获取属于自己的分区。它的缺点是消费者会和ZK产生频繁的交互，造成ZK集群的压力过大，并且容易产生羊群效应和脑裂等问题。

在0.8版本以后，Kafka重新设计了客户端，并且引入了“协调者”和“消费组管理协议”。新的消费者将“消费组管理协议”和“分区分配策略”进行了分离。协调者负责消费组的管理，而分区分配则会在消费组的一个主消费者中完成。采用这种方式，每个消费者都需要发送下面两种请求给协调者。

加入组请求：协调者收集消费组的所有消费者，并选举一个主消费者执行分区分配工作。
同步组请求：主消费者完成分区分配，由协调者将分区的分配结果传播给每个消费者。

新版本的消费者客户端引入了一个客户端协调者的抽象类，它的实现除了消费者的协调者，还有一个连接器的实现。

连接器的线程模型

Kafka连接器的出现标准化了Kafka与各种外部存储系统的数据同步。用户开发和使用连接器就变得非常简单，只需要在配置文件中定义连接器，就可以将外部系统的数据导入Kafka或将Kafka数据导出到外部系统。如图1所示，中间部分都是Kafka连接器的内部组件，包括源连接器（Source Connector）和目标连接器（Sink Connector）。

图1 Kafka连接器的源连接器与目标连接器

Kafka连接器的单机模式会在一个进程内启动一个Worker以及所有的连接器和任务。分布式模式的每个进程都有一个Worker，而连接器和任务则分别运行在各个节点上。图2列举了连接器和任务在不同Worker上的四种分布方式：

一个Worker，一个源任务、一个目标任务
一个Worker，两个源任务、两个目标任务
两个Worker，两个源任务、两个目标任务
三个Worker，两个源任务、两个目标任务

图2 分布式模式的Kafka连接器集群

分布式模式下，不同Worker进程之间的协调工作类似于消费者的协调。消费者通过协调者获取分配的分区，Worker也会通过协调者获取分配的连接器与任务。如图3所示，消费者客户端和Worker客户端为了加入到组管理中，分别通过客户端的协调者对象来和服务端的消费组协调者（GroupCoordinator）通信。

图3 消费者和Worker的工作都是通过协调者分配的

流处理的线程模型

Kafka流处理的工作流程简单来看分成三个步骤：消费者读取输入分区的数据、流式地处理每条数据、生产者将处理结果写入输出分区，这里面步骤1也充分利用了“消费组管理协议”。Kafka流处理的输入数据源基于具有分布式分区模型的Kafka主题，它的线程模型主要由下面三个类组成：

流实例（KafkaStreams）：通常一个节点（一台机器）只运行一个流实例。
流线程（StreamThread）：一个流实例可以配置多个流线程。
流任务（StreamTask）：一个流线程可以运行多个流任务，根据输入主题的分区数确定任务数。

如图4所示，输入主题有六个分区，Kafka流处理总共就会产生六个流任务。流实例可以动态扩展，流线程的个数也可以动态配置。图中一共有三个流线程，则每个流线程会有两个流任务，每个流任务都对应输入主题的一个分区。

图4 Kafka流处理的线程模型

Kafka的流处理框架使用并行的线程模型处理输入主题的数据集，这种设计思路和Kafka的消费者线程模型非常类似。消费者分配到订阅主题的不同分区，流处理框架的流任务也分配到输入主题的不同分区。如图5所示，输入主题1的分区P1和输入主题2的分区P1分配给流线程1的流任务，输入主题1的分区P2和输入主题2的分区P2分配给流线程2的流任务。流处理相比消费者，还会将拓扑的计算结果写到输出主题。

图5 消费者模型与流处理的线程模型

消费者和流处理的故障容错机制也是类似的。如图6所示，假设消费者2进程挂掉，它所持有的分区会被分配给同一个消费组中的消费者1，这样消费者1会分配到订阅主题的所有分区。对于流处理而言，如果流线程2挂掉了，流线程2中的流任务会分配给流线程1。即流线程1会运行两个流任务，每个流任务分配的分区仍然保持不变。

图6 消费者与流处理的故障容错机制

小结

Kafka客户端抽象出来的的“组管理协议”充分运用在消费者、连接器、流处理三个使用场景中。客户端中的消费者、连接器中的工作者、流处理中的流进程都可以看做“组”的一个成员。当增加或减少组成员时，在这个协议的约束下，每个组成员都可以获取到最新的任务，从而做到无缝的任务迁移。一旦理解了“组管理协议”，对于理解Kafka的架构设计是很有帮助的。

即席查询（Interactive Query）

EOS事务（Transaction）

参考文档

图解Java多线程

2017-10-24T16:00:00.000Z

图解Java多线程笔记：http://tutorials.jenkov.com/java-concurrency/java-memory-model.html

Java内存模型（JMM）定义了：how and when different threads can see
values written to shared variables by other threads,
and how to synchronize access to shared variables when necessary.

Java堆和栈中的对象存储位置：

Java内存模型与硬件模型：

线程读取主内存的数据到CPU缓冲中，当数据放在不同位置时，会有两个问题：可见性与静态条件

A synchronized block in Java is synchronized on some object.
All synchronized blocks synchronized on the same object can only
have one thread executing inside them at the same time.
All other threads attempting to enter the synchronized block are blocked
until the thread inside the synchronized block exits the block.

The synchronized keyword can be used to mark four different types of blocks:

Instance methods -> on the instance (object) owning the method
Static methods -> on the class object of the class belongs to …
Code blocks inside instance methods
Code blocks inside static methods

Synchronized Instance methods（实例方法的同步）：

静态方法的同步：

代码块的同步：

用jstack查看，同一个监视器对象只允许有一个线程访问：

实例方法的同步加上代码块this的同步，仍然针对同一个实例对象：

自定义监视器对象：

同一个实例对象的加锁：

不同实例对象的加锁：

Volatile keyword guarantees visibility of changes to variables across threads.

every read of a volatile variable will be
read from the computer’s main memory,
and not from the CPU cache.

every write to a volatile variable will be
written to main memory,
and not just to the CPU cache.

If Thread A writes to a volatile variable and Thread B subsequently reads the same volatile variable, then all variables visible to Thread A before writing the volatile variable, will also be visible to Thread B after it has read the volatile variable.

The reading and writing instructions of volatile variables cannot be reordered by the JVM. Instructions before and after can be reordered, but the volatile read or write cannot be mixed with these instructions. Whatever instructions follow a read or write of a volatile variable are guaranteed to happen after the read or write.

volatile变量不保证事务：

volatile变量仍然会存在竞态条件：

volatile变量会禁止重排序：

如果变量在volatile变量更新之后，不保证写到主存：

为了保证可见性，不需要为每个变量都定义为volatile类型：

volatile变量是个内存屏障，在这之前和之后的指令可以重排序：

本地线程的示例：

下面的上图没有使用本地线程，下图使用了本地线程：

线程的信号量实现方式–busy waiting：

或者可以用volatile变量：

wait和notify的示例：

notify与notifyAll的示例：

等待线程有可能意外被唤醒，需要用while循环继续判断是否被唤醒线程notify：

一次唤醒所有线程，或者每次一个个地唤醒：

不同线程之间采用字符串作为监视器锁，会唤醒别的线程：

不同线程之间的信号没有共享，等待线程被唤醒后继续进入wait状态：

不同线程的等待与唤醒示例：

读书笔记-Design Data Intensive Applications

2017-10-21T16:00:00.000Z

Design Data Intensive Applications

Ch3: Storage and Retrieval

Hash Index的目的是为数据库构建一份索引，方便根据key快速查询对应的value。

Compaction操作合并多个文件，相同key只会保存一份最新的value。

SSTables和LSM树：数据写到MemTable中是排序的，刷写到磁盘上也是有序的，最后通过定期的Compaction再合并数据。

由于每个SSTable的key都是唯一的，多个SSTable文件合并时，如果key重复，选取最新Segment的值，去掉旧Segment的所有值。

读取Segment不可避免地要扫描文件，所以可以对文件进行压缩，提高I/O带宽和传输速率。

不需要为所有SSTable的key建全量索引，只需要稀疏索引。由于key是有序的，可以通过二分查找快速定位key的位置。

稀疏索引不是必须的，不过通常需要稀疏索引。如果key和value的长度是固定的，就可以不需要稀疏索引，不同实际情况value一般是变长的。

LSM树的优化方法有：为文件添加BloomFilter、不同的合并策略。

传统数据库使用B树就地更新数据。B树一般将数据库分成固定的块或页，比如4K。这样读写操作每次也是一页。
这种方式和底层硬件对应起来，比如磁盘就是按照4K固定块组织的。

新增key到B树会调整树的结构，比如拆分出两个子Page，然后更新父Page。

B树的优化方法有：Copy-On-Write、不存储整个key，而是对key进行简写、范围查询时，子页之间会有指针。

为了容错，B树和LSM都有WAL预写日志，用于节点宕机后的数据恢复。

虽然LSM在后台执行增量的Compaction操作，但是磁盘资源有限，当执行一个昂贵的Compaction，
客户端请求可能需要等待Compaction完成，造成响应时间上升。

磁盘的写带宽会被三个操作共享：写WAL日志、MemTable刷写磁盘、Compaction。
数据库一旦变得越来越大，Compaction操作需要的带宽也会越来越多。

Compaction如果没有配置好，一旦写吞吐量很高，那么Compaction操作跟不上写请求。未合并的文件会越来越多，读请求也会越来越慢。

B树和LSM树的区别是：每个键在B树中只有一条记录，但在LSM中可能存在多条。这也是B树可以提供强一致性事务的保证（只对行进行加锁）。

深入解析中间件之-RocketMQ

2017-10-17T16:00:00.000Z

Apache RocketMQ: http://rocketmq.apache.org/

QuickStart

分别启动NameServer、Broker、生产者、消费者

> nohup sh bin/mqnamesrv &
> nohup sh bin/mqbroker -n localhost:9876 &

> export NAMESRV_ADDR=localhost:9876
> sh bin/tools.sh org.apache.rocketmq.example.quickstart.Producer
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D36B0000, offsetMsgId=AC112A0100002A9F0000000000000000, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=3], queueOffset=0]
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D3F50001, offsetMsgId=AC112A0100002A9F00000000000000B2, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=0], queueOffset=0]
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D3FB0002, offsetMsgId=AC112A0100002A9F0000000000000164, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=1], queueOffset=0]
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D4000003, offsetMsgId=AC112A0100002A9F0000000000000216, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=2], queueOffset=0]
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D4040004, offsetMsgId=AC112A0100002A9F00000000000002C8, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=3], queueOffset=1]
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D4080005, offsetMsgId=AC112A0100002A9F000000000000037A, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=0], queueOffset=1]
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D40C0006, offsetMsgId=AC112A0100002A9F000000000000042C, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=1], queueOffset=1]
SendResult [sendStatus=SEND_OK, msgId=AC112A0140641B6D35866042D4100007, offsetMsgId=AC112A0100002A9F00000000000004DE, messageQueue=MessageQueue [topic=TopicTest, brokerName=dp0652, queueId=2], queueOffset=1]

> sh bin/tools.sh org.apache.rocketmq.example.quickstart.Consumer
Consumer Started.
ConsumeMessageThread_6 Receive New Messages: [MessageExt [queueId=1, storeSize=178, queueOffset=1, sysFlag=0, bornTimestamp=1508402192396, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192398, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F000000000000042C, commitLogOffset=1068, bodyCRC=1307562618, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243398, UNIQ_KEY=AC112A0140641B6D35866042D40C0006, WAIT=true, TAGS=TagA}, body=16]]]
ConsumeMessageThread_11 Receive New Messages: [MessageExt [queueId=1, storeSize=179, queueOffset=2, sysFlag=0, bornTimestamp=1508402192410, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192412, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F00000000000006F4, commitLogOffset=1780, bodyCRC=193412630, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243399, UNIQ_KEY=AC112A0140641B6D35866042D41A000A, WAIT=true, TAGS=TagA}, body=17]]]
ConsumeMessageThread_2 Receive New Messages: [MessageExt [queueId=2, storeSize=178, queueOffset=0, sysFlag=0, bornTimestamp=1508402192384, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192386, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F0000000000000216, commitLogOffset=534, bodyCRC=1032136437, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243398, UNIQ_KEY=AC112A0140641B6D35866042D4000003, WAIT=true, TAGS=TagA}, body=16]]]
ConsumeMessageThread_1 Receive New Messages: [MessageExt [queueId=0, storeSize=178, queueOffset=0, sysFlag=0, bornTimestamp=1508402192373, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192377, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F00000000000000B2, commitLogOffset=178, bodyCRC=1401636825, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243398, UNIQ_KEY=AC112A0140641B6D35866042D3F50001, WAIT=true, TAGS=TagA}, body=16]]]
ConsumeMessageThread_4 Receive New Messages: [MessageExt [queueId=3, storeSize=178, queueOffset=0, sysFlag=0, bornTimestamp=1508402192236, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192319, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F0000000000000000, commitLogOffset=0, bodyCRC=613185359, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243397, UNIQ_KEY=AC112A0140641B6D35866042D36B0000, WAIT=true, TAGS=TagA}, body=16]]]
ConsumeMessageThread_7 Receive New Messages: [MessageExt [queueId=3, storeSize=178, queueOffset=1, sysFlag=0, bornTimestamp=1508402192388, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192390, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F00000000000002C8, commitLogOffset=712, bodyCRC=601994070, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243398, UNIQ_KEY=AC112A0140641B6D35866042D4040004, WAIT=true, TAGS=TagA}, body=16]]]
ConsumeMessageThread_8 Receive New Messages: [MessageExt [queueId=2, storeSize=178, queueOffset=1, sysFlag=0, bornTimestamp=1508402192400, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192401, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F00000000000004DE, commitLogOffset=1246, bodyCRC=988340972, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243398, UNIQ_KEY=AC112A0140641B6D35866042D4100007, WAIT=true, TAGS=TagA}, body=16]]]
ConsumeMessageThread_3 Receive New Messages: [MessageExt [queueId=1, storeSize=178, queueOffset=0, sysFlag=0, bornTimestamp=1508402192379, bornHost=/172.17.42.1:55844, storeTimestamp=1508402192382, storeHost=/172.17.42.1:10911, msgId=AC112A0100002A9F0000000000000164, commitLogOffset=356, bodyCRC=1250039395, reconsumeTimes=0, preparedTransactionOffset=0, toString()=Message [topic=TopicTest, flag=0, properties={MIN_OFFSET=0, MAX_OFFSET=250, CONSUME_START_TIME=1508402243398, UNIQ_KEY=AC112A0140641B6D35866042D3FB0002, WAIT=true, TAGS=TagA}, body=16]]]

17884 org.apache.rocketmq.namesrv.NamesrvStartup
17965 org.apache.rocketmq.broker.BrokerStartup -n localhost:9876

RocketMQ的数据目录在store下

[qihuang.zheng@dp0652 ~]$ tree store
store
├── abort
├── checkpoint
├── commitlog
│   ├── 00000000000000000000
│   └── 00000000001073741824
├── config
│   ├── consumerFilter.json
│   ├── consumerOffset.json
│   ├── delayOffset.json
│   ├── subscriptionGroup.json
│   ├── topics.json
├── consumequeue
│   └── TopicTest
│       ├── 0
│       │   └── 00000000000000000000
│       ├── 1
│       │   └── 00000000000000000000
│       ├── 2
│       │   └── 00000000000000000000
│       └── 3
│           └── 00000000000000000000
└── index
    └── 20171019163632344

数据相关的文件夹有三个：

commitlog：提交日志
consumequeue：消费队列
index：索引文件

查看commitlog的内容

[qihuang.zheng@dp0652 ~]$ strings store/commitlog/00000000000000000000 | head -30
Hello RocketMQ 0    TopicTest
>UNIQ_KEY
AC112A0140641B6D35866042D36B0000
WAIT
true
TAGS
TagA
Hello RocketMQ 1    TopicTest
>UNIQ_KEY
AC112A0140641B6D35866042D3F50001
WAIT
true
TAGS
TagA
Hello RocketMQ 2    TopicTest
>UNIQ_KEY
AC112A0140641B6D35866042D3FB0002
WAIT
true
TAGS
TagA
Hello RocketMQ 3    TopicTest

消费者的相关配置：

消费者对订阅主题的消费进度存储在consumerOffset.json配置文件中
消费者所属的消费组信息存储在subscriptionGroup.json配置文件中
消费者订阅的主题存储在topics.json配置文件中

Kafka中消费者订阅信息存储在ZooKeeper中

[qihuang.zheng@dp0652 ~]$ cat store/config/consumerFilter.json
{
    "filterDataByTopic":{}
}
[qihuang.zheng@dp0652 ~]$ cat store/config/delayOffset.json
{
    "offsetTable":{}
}

[qihuang.zheng@dp0652 ~]$ cat store/config/consumerOffset.json
{
    "offsetTable":{
        "TopicTest@please_rename_unique_group_name_4":{0:250,1:250,2:250,3:250
        },
        "%RETRY%please_rename_unique_group_name_4@please_rename_unique_group_name_4":{0:0
        }
    }
}

[qihuang.zheng@dp0652 ~]$ cat store/config/subscriptionGroup.json
{
    "dataVersion":{
        "counter":1,
        "timestamp":1508402243205
    },
    "subscriptionGroupTable":{
        "please_rename_unique_group_name_4":{
            "brokerId":0,
            "consumeBroadcastEnable":true,
            "consumeEnable":true,
            "consumeFromMinEnable":true,
            "groupName":"please_rename_unique_group_name_4",
            "notifyConsumerIdsChangedEnable":true,
            "retryMaxTimes":16,
            "retryQueueNums":1,
            "whichBrokerWhenConsumeSlowly":1
        }
    }
}

[qihuang.zheng@dp0652 ~]$ cat store/config/topics.json
{
    "dataVersion":{
        "counter":2,
        "timestamp":1508402243219
    },
    "topicConfigTable":{
        "TopicTest":{
            "order":false,
            "perm":6,
            "readQueueNums":4,
            "topicFilterType":"SINGLE_TAG",
            "topicName":"TopicTest",
            "topicSysFlag":0,
            "writeQueueNums":4
        }
    }
}

在本机测试时，没有遇到问题。但是IDE连接远程机器时，报错连接不上，这是因为服务端装了docker导致IP有问题：

org.apache.rocketmq.client.exception.MQClientException: Send [3] times, still failed, cost [6915]ms, Topic: TopicTestA, BrokersSent: [dp0652, dp0652, dp0652]
See http://rocketmq.apache.org/docs/faq/ for further details.
    at org.apache.rocketmq.client.impl.producer.DefaultMQProducerImpl.sendDefaultImpl(DefaultMQProducerImpl.java:544)
    at org.apache.rocketmq.client.impl.producer.DefaultMQProducerImpl.send(DefaultMQProducerImpl.java:1065)
    at org.apache.rocketmq.client.impl.producer.DefaultMQProducerImpl.send(DefaultMQProducerImpl.java:1023)
    at org.apache.rocketmq.client.producer.DefaultMQProducer.send(DefaultMQProducer.java:212)
    at org.apache.rocketmq.example.quickstart.Producer.main(Producer.java:69)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:497)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:144)
Caused by: org.apache.rocketmq.remoting.exception.RemotingConnectException: connect to <172.17.42.1:10909> failed

172.17.42.1这个IP地址是docker的

[qihuang.zheng@dp0652 rocketmq]$ ifconfig
docker0   Link encap:Ethernet  HWaddr CA:3E:ED:C2:67:20
          inet addr:172.17.42.1  Bcast:0.0.0.0  Mask:255.255.0.0

em1       Link encap:Ethernet  HWaddr B0:83:FE:C7:02:B3
          inet addr:192.168.6.52  Bcast:192.168.6.255  Mask:255.255.255.0

用模板生成，可以看到brokerIP1就是docker的IP:

[qihuang.zheng@dp0652 rocketmq]$ sh bin/mqbroker -m > broker.p

[qihuang.zheng@dp0652 rocketmq]$ cat broker.p
2017-10-19 17\:58\:00 INFO main - namesrvAddr=localhost:9876
2017-10-19 17\:58\:00 INFO main - brokerIP1=172.17.42.1
2017-10-19 17\:58\:00 INFO main - brokerName=dp0652
2017-10-19 17\:58\:00 INFO main - brokerClusterName=DefaultCluster
2017-10-19 17\:58\:00 INFO main - brokerId=0

接下来重启broker:

[qihuang.zheng@dp0652 rocketmq]$ sh bin/mqshutdown broker
The mqbroker(29723) is running...
Send shutdown request to mqbroker(29723) OK
[qihuang.zheng@dp0652 rocketmq]$ nohup sh bin/mqbroker -n localhost:9876 -c broker.properties &

重启后发送消息正常，这里把Topic改成TopicTestA：

SendResult [sendStatus=SEND_OK, msgId=0A39F12CF5A6355DA25460935C280000, offsetMsgId=C0A8063400002A9F000000000002BEB2, messageQueue=MessageQueue [topic=TopicTestA, brokerName=dp0652, queueId=0], queueOffset=0]

查看store，可以看到commitlog没有新增文件夹，而consumequeue则新增了TopicTestA文件夹：

├── commitlog
│   └── 00000000000000000000
├── consumequeue
│   ├── TopicTest
│   │   ├── 0
│   │   │   └── 00000000000000000000
│   │   ├── 1
│   │   │   └── 00000000000000000000
│   │   ├── 2
│   │   │   └── 00000000000000000000
│   │   └── 3
│   │       └── 00000000000000000000
│   └── TopicTestA
│       ├── 0
│       │   └── 00000000000000000000
│       ├── 1
│       │   └── 00000000000000000000
│       ├── 2
│       │   └── 00000000000000000000
│       └── 3
│           └── 00000000000000000000

API示例

生产者

同步的生产者：http://rocketmq.apache.org/docs/simple-example/

DefaultMQProducer producer = new DefaultMQProducer("please_rename_unique_group_name");
producer.setNamesrvAddr("192.168.6.52:9876");
producer.start();
for (int i = 0; i < 100; i++) {
    Message msg = new Message("TopicTestA", "TagA", 
      ("RocketMQ " + i).getBytes(RemotingHelper.DEFAULT_CHARSET)
    );
    SendResult sendResult = producer.send(msg);
    System.out.printf("%s%n", sendResult);
}
producer.shutdown();

异步的生产者：

producer.send(msg, new SendCallback() {
    public void onSuccess(SendResult sendResult) {
        System.out.printf("%-10d OK %s %n", index, sendResult.getMsgId());
    }
});

一次性的生产者，主要用于日志收集：

一个 RPC 调用,通常是这样一个过程:

客户端发送请求到服务器
服务器处理该请求
服务器向客户端返回应答

所以一个 RPC 的耗时时间是上述三个步骤的总和,而某些场景要求耗时非常短,但是对可靠性要求并不高,
例如日志收集类应用,此类应用可以采用 oneway 形式调用,oneway 形式只发送请求不等待应答,
而发送请求在客户端实现层面仅仅是一个 os 系统调用的开销,即将数据写入客户端的 socket 缓冲区,此过程耗时通常在微秒级。

1	producer.sendOneway(msg);

有序的生产者：http://rocketmq.apache.org/docs/order-example/

MQProducer producer = new DefaultMQProducer("example_group_name");
producer.start();
String[] tags = new String[] {"TagA", "TagB", "TagC", "TagD", "TagE"};
for (int i = 0; i < 100; i++) {
    int orderId = i % 10;
    //Create a message instance, specifying topic, tag , message key and body.
    Message msg = new Message("TopicTestjjj", tags[i % tags.length], "KEY" + i, ("Hello RocketMQ " + i).getBytes(RemotingHelper.DEFAULT_CHARSET));
    SendResult sendResult = producer.send(msg, new MessageQueueSelector() {
        public MessageQueue select(List mqs, Message msg, Object arg) {
            Integer id = (Integer) arg;
            int index = id % mqs.size();
            return mqs.get(index);
        }
    }, orderId); // 最后一个参数orderId作为第二个参数的arg值
    System.out.printf("%s%n", sendResult);
}
producer.shutdown();

定时生产者：http://rocketmq.apache.org/docs/schedule-example/

定时消息是指消息发到 Broker 后,不能立刻被 Consumer 消费,要到特定的时间点或者等待特定的时间后才能被消费。
如果要支持任意的时间精度,在 Broker 局面,必须要做消息排序,如果再涉及到持久化,那么消息排序要不可避免的产生巨大性能开销。

RocketMQ 支持定时消息,但是不支持任意时间精度,仅支持特定的 level,例如定时 5s,10s,1m 等。
定时消息是在生产者端设置DelayTimeLevel，消费者端不做任何处理。

public class ScheduledMessageProducer {
    public static void main(String[] args) throws Exception {
        DefaultMQProducer producer = new DefaultMQProducer("ExampleProducerGroup");
        producer.start();
        int totalMessagesToSend = 100;
        for (int i = 0; i < totalMessagesToSend; i++) {
            Message message = new Message("TestTopic", ("Hello scheduled message " + i).getBytes());
            // This message will be delivered to consumer 10 seconds later.
            message.setDelayTimeLevel(3);
            producer.send(message);
        }
        producer.shutdown();
    }
       
}

批量消息：http://rocketmq.apache.org/docs/batch-example/

简单的批量消息只需要构造List，调用producer.send()即可。不过在一个Batch中消息大小不能超过1Mib，需要程序手动进行切分。

消费者

拉取消费者（PullConsumer）：

首先根据Topic获取订阅的MessageQueue
对每个MessageQueue，都会调用pullBlockIfNotFound方法消费这个队列里的消息

public class PullConsumer {
    private static final Map OFFSE_TABLE = new HashMap();

    public static void main(String[] args) throws MQClientException {
        DefaultMQPullConsumer consumer = new DefaultMQPullConsumer("please_rename_unique_group_name_5");
        consumer.start();
        Set mqs = consumer.fetchSubscribeMessageQueues("TopicTest1");
        for (MessageQueue mq : mqs) {
            System.out.printf("Consume from the queue: " + mq + "%n");
            SINGLE_MQ:
            while (true) {
                PullResult pullResult = consumer.pullBlockIfNotFound(mq, null, getMessageQueueOffset(mq), 32);
                System.out.printf("%s%n", pullResult);
                putMessageQueueOffset(mq, pullResult.getNextBeginOffset());
                switch (pullResult.getPullStatus()) {
                    case FOUND:
                        break;
                    case NO_MATCHED_MSG:
                        break;
                    case NO_NEW_MSG:
                        break SINGLE_MQ;
                    case OFFSET_ILLEGAL:
                        break;
                    default:
                        break;
                }
            }
        }
        consumer.shutdown();
    }

    private static long getMessageQueueOffset(MessageQueue mq) {
        Long offset = OFFSE_TABLE.get(mq);
        if (offset != null) return offset;
        return 0;
    }
    private static void putMessageQueueOffset(MessageQueue mq, long offset) {
        OFFSE_TABLE.put(mq, offset);
    }
}

推送消费者（PushConsumer）：

订阅方法的第二个参数为*，表示所有的Tag，不进行过滤
Push推送方式采用注册消息监听器的方式，当收到Broker推送的消息，就会触发监听器的回调

DefaultMQPushConsumer consumer = new DefaultMQPushConsumer("CID_JODIE_1");
consumer.subscribe("Jodie_topic_1023", "*");

// 下面几个采用Push模式的消费者的监听器都一样
consumer.registerMessageListener(new MessageListenerConcurrently() {
    public ConsumeConcurrentlyStatus consumeMessage(List msgs, ConsumeConcurrentlyContext context) {
        System.out.printf(Thread.currentThread().getName() + " Receive New Messages: " + msgs + "%n");
        return ConsumeConcurrentlyStatus.CONSUME_SUCCESS;
    }
});
consumer.start();
System.out.printf("Consumer Started.%n");

广播模式的推送消费者，相比上一个示例增加了设置消息模型（setMessageModel），其他没有变化。

DefaultMQPushConsumer consumer = new DefaultMQPushConsumer("please_rename_unique_group_name_1");
consumer.setConsumeFromWhere(ConsumeFromWhere.CONSUME_FROM_FIRST_OFFSET);
consumer.setMessageModel(MessageModel.BROADCASTING);
consumer.subscribe("TopicTest", "TagA || TagC || TagD");

过滤器的消费者。过滤器采用Push方式时，过滤逻辑在Broker实现，Broker把过滤过的数据发送给消费者。
如果过滤器采用Pull模式，所有的数据都会传送到消费者，然后在消费者端执行过滤逻辑。

DefaultMQPushConsumer consumer = new DefaultMQPushConsumer("ConsumerGroupNamecc4");
ClassLoader classLoader = Thread.currentThread().getContextClassLoader();
File classFile = new File(classLoader.getResource("MessageFilterImpl.java").getFile());
String filterCode = MixAll.file2String(classFile);
// 订阅方法的第二个参数是过滤器的实现类，而前面示例的第二个参数是Tag过滤
consumer.subscribe("TopicTest", "org.apache.rocketmq.example.filter.MessageFilterImpl", filterCode);

SQL消费者（生产者发送消息时通过putUserProperty可以指定自定义的属性，除了Tag外，自定义属性也可以被过滤）：

DefaultMQPushConsumer consumer = new DefaultMQPushConsumer("please_rename_unique_group_name_4");
// 订阅方法的第二个参数是消息选择器
consumer.subscribe("TopicTest", MessageSelector.bySql(
    "(TAGS is not null and TAGS in ('TagA', 'TagB'))" +
    "and (a is not null and a between 0  3)"));

有序的消费者：前面几种消费者注册的监听器是：MessageListenerConcurrently，这里是MessageListenerOrderly。

DefaultMQPushConsumer consumer = new DefaultMQPushConsumer("example_group_name");
consumer.setConsumeFromWhere(ConsumeFromWhere.CONSUME_FROM_FIRST_OFFSET);
consumer.subscribe("TopicTest", "TagA || TagC || TagD");
consumer.registerMessageListener(new MessageListenerOrderly() {
    AtomicLong consumeTimes = new AtomicLong(0);
    public ConsumeOrderlyStatus consumeMessage(List msgs, ConsumeOrderlyContext context) {
        context.setAutoCommit(false);
        System.out.printf(Thread.currentThread().getName() + " Receive New Messages: " + msgs + "%n");
        this.consumeTimes.incrementAndGet();
        if ((this.consumeTimes.get() % 2) == 0) {
            return ConsumeOrderlyStatus.SUCCESS;
        } else if ((this.consumeTimes.get() % 3) == 0) {
            return ConsumeOrderlyStatus.ROLLBACK;
        } else if ((this.consumeTimes.get() % 4) == 0) {
            return ConsumeOrderlyStatus.COMMIT;
        } else if ((this.consumeTimes.get() % 5) == 0) {
            context.setSuspendCurrentQueueTimeMillis(3000);
            return ConsumeOrderlyStatus.SUSPEND_CURRENT_QUEUE_A_MOMENT;
        }
        return ConsumeOrderlyStatus.SUCCESS;
    }
});

consumer.start();

消费者的监听器有两种形式：并发和有序。参考：http://rocketmq.apache.org/docs/best-practice-consumer/

监听器	上下文	返回状态	返回码
MessageListenerConcurrently	ConsumeConcurrentlyContext	ConsumeConcurrentlyStatus	CONSUME_SUCCESS
MessageListenerOrderly	ConsumeOrderlyContext	ConsumeOrderlyStatus	SUCCESS、ROLLBACK、COMMIT、SUSPEND_CURRENT_QUEUE_A_MOMENT

消息消费的顺序问题：

并发情况下，返回RECONSUME_LATER，表示过一会儿再消费，先去消费其他消息
有序情况下，返回SUSPEND_CURRENT_QUEUE_A_MOMENT，表示等一会儿再消费，无法消费其他消息

基本流程

Remoting RPC示例

rocketmq-remoting模块采用Netty封装了RPC的调用，包括客户端和服务端之间的交互。

不同分布式系统在通信上都会实现RPC模块，比如Kafka、Hadoop等都有各自的RPC实现。

先来查看测试用例RemotingServerTest的使用方法：

启动RemotingServer和RemotingClient
调用RemotingClient的invokeAsync()或者invokeSync()、invokeOneway()方法

以异步调用为例，RemotingClient的invokeAsync()方法主要有三个参数：

服务端地址，RPC调用需要指定服务端的地址，这样客户端才能发送请求，让服务端处理
远程指令（RemotingCommand），即客户端发送的请求
回调对象（InvokeCallback），即客户端收到服务端返回的响应结果后，如何处理

RPC调用的具体步骤如下：

启动客户端和服务端
客户端构造远程指令对象
客户端通过RemotingClient同步或者异步调用
服务端在启动时注册的处理器，会处理客户端发送的请求，即调用处理器的processRequest()方法
服务端处理完请求后，返回响应给客户端
客户端收到服务端返回的响应结果，会触发回调对象调用operationComplete()方法

public static RemotingServer createRemotingServer() throws InterruptedException {
    NettyServerConfig config = new NettyServerConfig();
    RemotingServer remotingServer = new NettyRemotingServer(config);
    remotingServer.registerProcessor(0, new NettyRequestProcessor() {
        @Override
        public RemotingCommand processRequest(ChannelHandlerContext ctx, RemotingCommand request) {
            request.setRemark("Hi " + ctx.channel().remoteAddress());
            return request;
        }
    }, Executors.newCachedThreadPool());
    remotingServer.start();
    return remotingServer;
}

public void testInvokeAsync() throws InterruptedException, RemotingConnectException,
    RemotingTimeoutException, RemotingTooMuchRequestException, RemotingSendRequestException {

    final CountDownLatch latch = new CountDownLatch(1);
    RemotingCommand request = RemotingCommand.createRequestCommand(0, null);
    request.setRemark("messi");
    remotingClient.invokeAsync("localhost:8888", request, 1000 * 3, new InvokeCallback() {
        public void operationComplete(ResponseFuture responseFuture) {
            latch.countDown();
            assertThat(responseFuture.getResponseCommand().getExtFields()).hasSize(2);
        }
    });
    latch.await();
}

RemotingServer的registerProcessor()方法有三个参数：

请求编码，比如SEND_MESSAGE表示（生产者）客户端发送消息的请求
请求处理器，比如服务端如何处理客户端发送消息的处理器，实现类为：SendMessageProcessor
处理线程，每种请求编码都对应一个处理线程池。如果没有指定，则使用默认的线程池

客户端调用服务端有三种方式：同步（Sync）、异步（Async）、一次性（OneWay）。前两种有响应结果，最后一种不产生响应结果。

Netty RPC

NettyRemotingServer在启动时，会绑定NettyServerHandler。Netty RPC的特点如下：

请求和响应都是用RemotingCommand对象来表示
服务端（NettyRemotingServer）和客户端（NettyRemotingClient）实现了抽象的NettyRemotingAbstract
抽象类根据不同的指令类型调用不同的处理方法，比如处理请求调用processRequestCommand，处理响应调用processResponseCommand

下面举例客户端和服务端执行一次RPC调用链路的过程：

客户端发送请求给服务端，通过Netty的Channel发送请求给服务端
服务端处理客户端发送的请求，NettyServerHandler接收的消息类型为REQUEST_COMMAND，调用processRequestCommand方法
服务端处理完成后，通过Netty的Channel发送响应结果给客户端
客户端处理服务端发送的响应，NettyClientHandler接收的消息类型为RESPONSE_COMMAND，调用processResponseCommand方法

NettyRemotingAbstract用processorTable变量记录了请求编码、处理器、线程池之间的关系。

每个请求编码都对应了一种唯一的处理器，相同请求编码的处理器是相同的
由于处理器与线程池组成一对，所以相同请求编码的请求在相同的线程池中执行

不同的请求编码在不同的线程池中运行，以发送消息和消费消息为例：

请求编码（request code）	处理器	线程池
SEND_MESSAGE	SendMessageProcessor	ExecutorService#1
GET_MESSAGE	PullMessageProcessor	ExecutorService#2

以经典的RPC通信模型来看，客户端向服务端发起RPC调用请求。那么processorTable主要针对服务端，responseTable则主要针对客户端。

客户端发起RPC调动时，会创建异步的响应对象，并放入将opaque和ResponseFuture的映射关系放入responseTable
当客户端收到服务端发送的响应结果后，会将opaque以及ResponseFuture从responseTable中移除

那么opaque是如何在请求和响应之间进行关联的呢？下面代码中的注释说明了opaque在请求和响应之间的设置和获取流程。

opaque表示：请求发起方在同一连接上不同的请求标识代码,多线程连接复用使用

protected final HashMap> processorTable =
    new HashMap>(64);
 protected final ConcurrentMap responseTable =
    new ConcurrentHashMap(256);

public void processMessageReceived(ChannelHandlerContext ctx, RemotingCommand msg) throws Exception {
    final RemotingCommand cmd = msg;
    if (cmd != null) {
        switch (cmd.getType()) {
            case REQUEST_COMMAND:
                processRequestCommand(ctx, cmd);
                break;
            case RESPONSE_COMMAND:
                processResponseCommand(ctx, cmd);
                break;
            default:
                break;
        }
    }
}

// 处理请求，比如服务端处理客户端发送的请求，NettyServerHandler会调用到这里
public void processRequestCommand(final ChannelHandlerContext ctx, final RemotingCommand cmd) {
    final Pair matched = this.processorTable.get(cmd.getCode());
    // 4. 从请求对象中获取opaque，那么什么时候opaque设置到请求中？
    // 这里的cmd实际上是步骤3的request，因为步骤1已经有opaque，所以这里也能取到opaque
    final int opaque = cmd.getOpaque();
    final RemotingCommand response = pair.getObject1().processRequest(ctx, cmd);
    // 5. 将opaque设置到响应对象中
    response.setOpaque(opaque);
    // 6. 发送响应对象给客户端
    ctx.writeAndFlush(response);
}

// 处理响应，比如客户端处理服务端发送的响应，NettyClientHandler会调用到这里
public void processResponseCommand(ChannelHandlerContext ctx, RemotingCommand cmd) {
    // 7. 从响应对象中获取opaque，那么什么时候opaque设置到响应里？答案在步骤5中
    // 这里的cmd是步骤5的response，而response的opaque来自于request
    final int opaque = cmd.getOpaque();
    // 8. 根据opaque从responseTable中获取出对应的ResponseFuture
    final ResponseFuture responseFuture = responseTable.get(opaque);
    if (responseFuture != null) {
        responseFuture.setResponseCommand(cmd);
        responseFuture.release();
        // 9. 将opaque与ResponseFuture的映射关系从responseTable中移除，与步骤2互相对应
        responseTable.remove(opaque);
        // 执行客户端在发送RPC调用时定义的回调函数
        if (responseFuture.getInvokeCallback() != null) {
            executeInvokeCallback(responseFuture);
        } else {
            responseFuture.putResponse(cmd);
        }
    }
}

// 客户端发起RPC调用
public RemotingCommand invokeSyncImpl(final Channel channel, final RemotingCommand request) {
    // 1. 从请求中获取opaque
    final int opaque = request.getOpaque();
    final ResponseFuture responseFuture = new ResponseFuture(opaque, timeoutMillis, null, null);
    // 2. 创建ResponseFuture，并记录到responseTable
    this.responseTable.put(opaque, responseFuture);
    final SocketAddress addr = channel.remoteAddress();
    // 3. 发起RPC调用
    channel.writeAndFlush(request);
}

生产者发送消息

以example/quickstart下的Producer发送消息为例，入口方法走到DefaultMQProducerImpl的sendDefaultImpl()方法。

发送消息过程涉及下面几个步骤：

tryToFindTopicPublishInfo()：根据消息的Topic获取TopicPublishInfo
selectOneMessageQueue()：选择一个MessageQueue
sendKernelImpl()：调用内核的发送方法
如果是同步调用，返回SendResult，否则返回空

接下来进入DefaultMQProducerImpl的内核发送方法，主要的参数有：Message、MessageQueue、TopicPublishInfo

如果有Hook，构造SendMessageContext，将Message、MessageQueue等都设置为上下文对象的成员变量
构造SendMessageRequestHeader
从MQClientFactory获取getMQClientAPIImpl()实现类MQClientAPIImpl，调用sendMessage()方法

接下来进入MQClientAPIImpl的sendMessage()方法

根据RequestCode.SEND_MESSAGE（请求编码）和SendMessageRequestHeader（请求头）创建RemotingCommand对象
设置请求的body为消息内容：request.setBody(msg.getBody())
调用remotingClient.invokeAsync()或者invokeSync()方法
对于同步调用，因为要等待结果返回，所以会立即调用processSendResponse()
processSendResponse()方法返回一个SendResult对象

private SendResult sendMessageSync(
    final String addr, // Broker的地址
    final String brokerName, // Broker的名字
    final Message msg, // 消息内容
    final long timeoutMillis,
    final RemotingCommand request // 请求对象
) {
    // RPC调用示例，这里的客户端是生产者，通过MQClientAPIImpl调用
    RemotingCommand response = this.remotingClient.invokeSync(addr, request, timeoutMillis);
    assert response != null;
    return this.processSendResponse(brokerName, msg, response);
}

生产者通过MQClientAPIImpl发起RPC调用，request请求对象的编码是SEND_MESSAGE。这里的地址指的是Broker的地址，而不是NameServer。
虽然生产者连接的是NameServer，但这中间会有选择MessageQueue，再选择Broker的过程，由于这里先关注整体的流程，暂时不去分析具体的细节。

客户端通过RemotingClient调用了服务端Broker，接下来看服务端BrokerController的处理。

BrokerController启动时会为各种请求类型注册不同的请求处理器，比如SEND_MESSAGE注册了SendMessageProcessor处理器：

public void registerProcessor() {
    SendMessageProcessor sendProcessor = new SendMessageProcessor(this);
    // SendMessageProcessor有两个Hook：发送消息和消费消息的Hook。
    sendProcessor.registerSendMessageHook(sendMessageHookList);
    sendProcessor.registerConsumeMessageHook(consumeMessageHookList);
    this.remotingServer.registerProcessor(RequestCode.SEND_MESSAGE, sendProcessor, this.sendMessageExecutor);
}

SendMessageProcessor的processRequest()方法会处理生产者客户端发送的SEND_MESSAGE请求。

客户端在发送请求之前构建了SendMessageContext和SendMessageRequestHeader，这里对应的会首先从RemotingCommand反解析出着两个对象

解析请求的body，创建MessageExtBrokerInner对象
获取MessageStore，并调用putMessage方法，传入MessageExtBrokerInner对象
返回PutMessageResult，并调用handlePutMessageResult方法
最后返回的是一个RemotingCommand响应对象，会返回给客户端

public RemotingCommand processRequest(ChannelHandlerContext ctx,
    RemotingCommand request) throws RemotingCommandException {
    SendMessageContext mqtraceContext;
    switch (request.getCode()) {
        case RequestCode.CONSUMER_SEND_MSG_BACK:
            return this.consumerSendMsgBack(ctx, request);
        default: // SEND_MESSAGE的处理逻辑...
            SendMessageRequestHeader requestHeader = parseRequestHeader(request);
            mqtraceContext = buildMsgContext(ctx, requestHeader);
            this.executeSendMessageHookBefore(ctx, request, mqtraceContext);
            RemotingCommand response;
            if (requestHeader.isBatch()) {
                response = this.sendBatchMessage(ctx, request, mqtraceContext, requestHeader);
            } else {
                response = this.sendMessage(ctx, request, mqtraceContext, requestHeader);
            }
            this.executeSendMessageHookAfter(response, mqtraceContext);
            return response;
    }
}

接下来进入DefaultMessageStore的putMessage()方法，这个方法会调用CommitLog的putMessage()方法

BrokerController和SendMessageProcessor都在broker模块
MessageStore和CommitLog则在store模块

CommitLog首先获取最近的MappedFile，然后追加消息到映射文件中。

追加消息的回调类DefaultAppendMessageCallback是执行数据写入文件的真正方法。
追加完成后，有多种的磁盘刷写方式，比如同步和异步

public PutMessageResult putMessage(final MessageExtBrokerInner msg) {
    MappedFile mappedFile = this.mappedFileQueue.getLastMappedFile();
    AppendMessageResult result = mappedFile.appendMessage(msg, this.appendMessageCallback);
    PutMessageResult putMessageResult = new PutMessageResult(PutMessageStatus.PUT_OK, result);
    handleDiskFlush(result, putMessageResult, msg);
    handleHA(result, putMessageResult, msg);
    return putMessageResult;
}

同样，我们省略了具体写入到CommitLog中的细节，以及如何处理磁盘的刷写、HA等细枝末节。实际上，到这里为止，
生产者客户端发起RPC调用，到服务端处理请求，服务端返回响应，客户端接收响应结果，这个过程已经分析完毕了。

Pull Consumer

PULL_MESSAGE对应的处理器是PullMessageProcessor。与生产消息调用MessageStore的putMessage()类似，
消费消息调用MessageStore的getMessage()方法，并返回GetMessageResult。

请求编码	消息处理器	消息存储	结果
SEND_MESSAGE	SendMessageProcessor	putMessage()	PutMessageResult
PULL_MESSAGE	PullMessageProcessor	getMessage()	GetMessageResult

消费者还需要提交偏移量，对应ConsumerOffsetManager的commitOffset()方法。

private RemotingCommand processRequest(final Channel channel, RemotingCommand request, boolean brokerAllowSuspend) {
    final GetMessageResult getMessageResult = this.brokerController.getMessageStore().getMessage(
            requestHeader.getConsumerGroup(),   // 消费组
            requestHeader.getTopic(),           // 主题
            requestHeader.getQueueId(),         // 队列编号
            requestHeader.getQueueOffset(),     // 队列的偏移量
            requestHeader.getMaxMsgNums(),      // 最大的消息数量
            messageFilter);                     // 过滤器
    // .......................................................
    if (storeOffsetEnable) {
        this.brokerController.getConsumerOffsetManager().commitOffset(
            RemotingHelper.parseChannelRemoteAddr(channel),
            requestHeader.getConsumerGroup(), 
            requestHeader.getTopic(), 
            requestHeader.getQueueId(), 
            requestHeader.getCommitOffset());
    }
}

存储层设计到文件操作时，生产消息会写到CommitLog，消费消息则会调用getMessage方法，给定偏移量和大小。

设计

架构

NameServer Cluster：
Name Servers provide lightweight service discovery and routing.
Each Name Server records full routing information（路由信息表）,
provides corresponding reading and writing service,
and supports fast storage expansion.
Broker Cluster：
Brokers take care of message storage by providing lightweight TOPIC and QUEUE mechanisms.
They support the Push and Pull model, contains fault tolerance mechanism (2 copies or 3 copies),
and provides strong padding of peaks and capacity of accumulating hundreds of billion messages in their original time order.
In addition, Brokers provide disaster recovery, rich metrics statistics, and alert mechanisms, all of which are lacking in traditional messaging systems.
Producer Cluster：
Producers support distributed deployment.
Distributed Producers send messages to the Broker cluster through multiple load balancing modes.
The sending processes support fast failure and have low latency.
Consumer Cluster：
Consumers support distributed deployment in the Push and Pull model as well.
It also supports cluster consumption（集群消费） and message broadcasting（消息广播）.
It provides real-time message subscription mechanism and can meet most consumer requirements. R

NameServer is a fully functional server, which mainly includes two features:

Broker Management, NameServer accepts the register from Broker cluster and provides heartbeat mechanism to check whether a broker is alive.
Routing Management, each NameServer will hold whole routing info about the broker cluster and the queue info for clients query.

Broker server is responsible for message store and delivery, message query, HA guarantee, and so on.

Remoting Module, the entry of broker, handles the requests from clients（处理客户端请求）.
Client Manager, manages the clients (Producer/Consumer) and maintains topic subscription of consumer（维护消费者的主题订阅）.
Store Service, provides simple APIs to store or query message in physical disk（磁盘文件存储和查询消息）.
HA Service, provides data sync feature between master broker and slave broker（主从节点的数据同步）.
Index Service, builds index for messages by specified key and provides quick message query（构建消息索引）.

Name server follows the share-nothing design paradigm. Brokers send heartbeat data to all name servers.
Producers and consumers can query meta data from any of name servers available while sending / consuming messages.

Brokers can be divided into two categories according to their roles: master and slave.
Master brokers provide RW access while slave brokers only accept read access.

To deploy a high-availability RocketMQ cluster with no single point of failure, a series of broker sets should be deployed.
A broker set contains one master with brokerId set to 0 and several slaves with non-zero brokerIDs.
All of the brokers in one set have the same brokerName. In serious scenarios,
we should have at least two brokers in one broker set. Each topic resides in two or more brokers.

Broker is a major component of the RocketMQ system.
It receives messages sent from producers, store them and prepare to handle pull requests from consumers.
It also stores message related meta data, including consumer groups, consuming progress offsets and topic / queue info.

物理部署结构（服务端）

Name Server 是一个几乎无状态节点,可集群部署,节点之间无任何信息同步。

Broker 部署相对复杂,Broker 分为 Master 与 Slave,
一个 Master 可以对应多个 Slave, 但是一个 Slave 只能对应一个 Master,
Master 与 Slave 的对应关系通过指定相同的 BrokerName,不同的 BrokerId 来定义,
BrokerId为 0 表示 Master,非 0 表示 Slave。Master 也可以部署多个。
每个 Broker 与 Name Server 集群中的所有节点建立长连接,定时注册 Topic 信息到所有 Name Server。

Producer 与 Name Server 集群中的其中一个节点(随机选择)建立长连接,
定期从 Name Server 取 Topic 路由信息,
并向提供 Topic 服务的 Master 建立长连接,
且定时向 Master 发送心跳。
Producer 完全无状态,可集群部署。

Consumer 与 Name Server 集群中的其中一个节点(随机选择)建立长连接,
定期从 Name Server 取 Topic 路由信息,
并向提供 Topic 服务的 Master、Slave 建立长连接,
且定时向 Master、Slave 发送心跳。
Consumer 既可以从 Master 订阅消息,也可以从 Slave 订阅消息,订阅规则由 Broker 配置决定。

逻辑部署结构（客户端）

Producer Group 用来表示一个发送消息应用,一个 Producer Group 下包含多个 Producer 实例,
可以是多台机器,也可以是一台机器的多个进程,或者一个进程的多个 Producer 对象。
一个 Producer Group 可以发送多个 Topic 消息,Producer Group 作用如下:

标识一类 Producer
可以通过运维工具查询这个发送消息应用下有多个 Producer 实例
发送分布式事务消息时,如果 Producer 中途意外宕机,Broker 会主动回调 Producer Group 内的任意一台机器来确认事务状态

Consumer Group 用来表示一个消费消息应用,一个 Consumer Group 下包含多个 Consumer 实例,
可以是多台机器,也可以是多个进程,或者是一个进程的多个 Consumer 对象。
一个 Consumer Group 下的多个 Consumer 以均摊/集群（CLUSTER）方式消费消息,
如果设置为广播方式(BROADCAST),那么这个 Consumer Group 下的每个实例都消费全量数据。

存储结构

所有数据单独存储到一个 Commit Log,完全顺序写,随机读。
RocketMQ 的所有消息都是持久化,先写入系统 PAGECACHE,然后刷盘,可以保证内存不磁盘都有一份数据, 访问时,直接从内存读叏。
对最终用户展现的队列(ConsumeQueue)实际只存储消息在CommitLog的位置信息,并且串行方式刷盘。
消费者的读取流程是：先读ConsumeQueue,再读CommitLog
由于ConsumeQueue存储数据量极少,并且是顺序读,在PAGECACHE预读作用下,
ConsumeQueue的读性能几乎与内存一致,即使堆积情况下。所以可认为 Consume Queue 完全不会阻碍读性能。
要保证CommitLog与ConsumeQueue完全的一致,增加了编程的复杂度。
Commit Log 中存储了所有的元信息,包含消息体,类似于 Mysql、Oracle 的 redolog,
所以只要有 Commit Log 在,Consume Queue 即使数据丢失,仍然可以恢复出来。

总结一句话：生产消息时先写入PageCache，然后刷写到磁盘。

同步刷盘与异步刷盘的唯一区别是异步刷盘写完 PAGECACHE 直接返回,而同步刷盘需要等待刷盘完成才返回, 同步刷盘流程如下:

写入 PAGECACHE 后,线程等待,通知刷盘线程刷盘。
刷盘线程刷盘后,唤醒前端等待线程,可能是一批线程。
前端等待线程向用户返回成功。

读取消息的ConsumeQueue文件也会加载到PageCache，读PageCache和内存速度差不多。

Producer 发送消息,消息从 socket 进入 java 堆。
Producer 发送消息,消息从 java 堆转入 PAGACACHE,物理内存。
Producer 发送消息,由异步线程刷盘,消息从 PAGECACHE 刷入磁盘。
Consumer 拉消息(正常消费),消息直接从PAGECACHE(数据在物理内存)转入socket,到达consumer,不经过 java 堆。
这种消费场景最多,线上 96G 物理内存,按照 1K 消息算,可以在物理内存缓存 1 亿条消息。
Consumer 拉消息(异常消费),消息直接从 PAGECACHE(数据在虚拟内存)转入 socket。
Consumer 拉消息(异常消费),由于 socket 访问了虚拟内存,产生缺页中断,此时会产生磁盘 IO,
从磁盘 Load 消息到 PAGECACHE,然后直接从 socket 发出去。
同5
同6

负载均衡（7.8/7.9）

消息查询(TODO 7.3)

按照MessageId查询

按照MessageKey查询

消息过滤(TODO 7.4)

有两种类型的消息过滤：

Broker 端消息过滤：在 Broker 中,按照 Consumer 的要求做过滤,优点是减少了对于 Consumer 无用消息的网络传输。缺点是增加了 Broker 的负担,实现相对复杂。
Consumer 端消息过滤：这种过滤方式可由应用完全自定义实现,但是缺点是很多无用的消息要传输到 Consumer 端。

长轮询Pull(TODO 7.5)

RocketMQ 的 Consumer 都是从 Broker 拉消息来消费,但是为了能做到实时收消息,
RocketMQ 使用长轮询方式,可以保证消息实时性同 Push 方式一致。简单说就是长轮询Pull = Push。

顺序消息(TODO 7.6)

消息有序指的是一类消息消费时,能按照发送的顺序来消费。
例如:一个订单产生了 3 条消息,分别是订单创建,订单付款,订单完成。
消费时,要按照这个顺序消费才能有意义。但是同时订单之间是可以并行消费的。

缺点：

发送顺序消息无法利用集群 FailOver 特性
􏰀- 消费顺序消息的并行度依赖于队列数量（MessageQueue的数量）
􏰀- 队列热点问题,个别队列由于哈希不均导致消息过多,消费速度跟不上,产生消息堆积问题 􏰀
遇到消息失败的消息,无法跳过,当前队列消费暂停（等一段时间再消费）

消费线程(单队列并行消费, 7.10)

单队列并行消费采用滑动窗口方式并行消费,如图所示,3~7的消息在一个滑动窗口区间,可以有多个线程并行消费,但是每次提交的 Offset 都是最小 Offset,例如 3。

修改消费并行度的两种方法：

同一个 ConsumerGroup 下,通过增加 Consumer 实例数量来提高并行度（超过订阅队列数的 Consumer 实例无效）。
可以通过加机器,或者在已有机器启动多个进程的方式。
提高单个 Consumer 的消费并行线程,通过修改两个参数：consumeThreadMin/consumeThreadMax。

批量方式消费：

某些业务流程如果支持批量方式消费,则可以很大程度上提高消费吞吏量,例如订单扣款类应用,
一次处理一个订单耗时 1 秒钟,一次处理 10 个订单可能也只耗时 2 秒钟,这样即可大幅度提高消费的吞吏量。
通过设置 consumer 的 consumeMessageBatchMaxSize 返个参数,
默认是 1,即一次只消费一条消息,例如设置为 N,那么每次消费的消息数小于等于 N。

消息堆积、消息重试

消息堆积（4.12）和消息重试（4.15）
解决办法（7.15）
跳过非重要消息（14.3）

事务(TODO)

分布式事务涉及到两阶段提交问题,在数据存储方面的方面必然需要 KV 存储的支持,
因为第二阶段的提交回滚需要修改消息状态,一定涉及到根据 Key 去查找 Message 的动作。
RocketMQ 在第二阶段绕过了根据 Key 去查找 Message 的问题,
采用第一阶段发送 Prepared 消息时,拿到了消息的 Offset,
第二阶段通过 Offset 去访问消息, 并修改状态,Offset 就是数据的地址。

RocketMQ 这种实现事务方式,没有通过 KV 存储做,而是通过 Offset 方式,
存在一个显著缺陷,即通过 Offset 更改数据,会令系统的脏页过多,需要特别关注。

Producer Group

Producers of the same role are grouped together.
A different producer instance of the same producer group
may be contacted by a broker to commit or roll back a transaction
in case the original producer crashed after the transaction.

Warning: Considering the provided producer is sufficiently powerful at sending messages,
only one instance is allowed per producer group to avoid unnecessary initialization of producer instances.

扩容

扩容是整个系统中的很重要的一个环节。在保证顺序的情况下进行扩容的难度会更大。
基本的策略是让向一个队列写入数据的消息发送者能够知道应该把消息写入迁移到新的队列中，
并且需要让消息的订阅者知道，当前的队列消费完数据后需要迁移到新队列去消费消息。关键点如下:

原队列在开始扩容后需要有一个标志，即便有新消息过来，也不再接收。
通知消息发送端新的队列的位置。
对于消息接受端，对原来队列的定位会收到新旧两个位置，当旧队列的数据接受完毕后，则会只关心新队列的位置，完成切换。

那么对于Metaq顺序消息，如何做到不停写扩容呢？我说说自己的看法：
在队列扩容的时候考虑到需要处理最新的消息服务，为了不丢失这部分消息，
可以采取让Producer暂存消息在本地磁盘设备中，
等扩容完成后再与Broker交互。这是我目前能想到的不停写扩容方式。

参考文档

RocketMQ原理简介
RocketMQ开发指南
(http://www.cnblogs.com/zhulongchao/p/5792770.html)

深入解析中间件之-TCC事务

2017-10-17T16:00:00.000Z

TCC

重拾了一把JavaWeb的部署流程，使用Jetty在Idea专业版上运行。步骤如下：

本地下载Jetty，Idea启用Jetty Intergration插件（注意：不是Jetty Runner）
在Run Configuration中选择Jetty Server/Local，配置本地的Jetty服务器（图1）
新建Jetty Server，在Deployment中添加web工程的war exploded（图2）
保存后，点击右上角的三角箭头启动Jetty

坑爹的是由于有三个工程，第二个Jetty工程即使在vm.options中添加-Djetty.http.port=8081，使用的还是8080端口

遂放弃，采用mvn jetty:run的方式

在根pom.xml中添加jetty-plugin的配置（注意：不需要在capital/order/red下添加）：


    org.eclipse.jetty
    jetty-maven-plugin
    9.4.7.v20170914

然后进入到tcc-transaction的根目录（注意不要进入到实际的capital/order/red等目录）分别执行（开三个终端）：

1
2
3

➜  tcc-transaction git:(master-1.2.x) ✗ mvn jetty:run -projects tcc-transaction-tutorial-sample/tcc-transaction-http-sample/tcc-transaction-http-capital -am
➜  tcc-transaction git:(master-1.2.x) ✗ mvn -Djetty.http.port=8088 jetty:run -projects tcc-transaction-tutorial-sample/tcc-transaction-http-sample/tcc-transaction-http-redpacket -am
➜  tcc-transaction git:(master-1.2.x) ✗ mvn -Djetty.http.port=8086 jetty:run -projects tcc-transaction-tutorial-sample/tcc-transaction-http-sample/tcc-transaction-http-order -am

解释下这里的参数含义：

-Djetty.http.port=8088表示web端口，端口不能相同，默认是8080
通过-projects定位到具体的web子项目
最后还要加上-am，表示会编译相关的依赖模块

比如capital的依赖：

[INFO] tcc-transaction
[INFO] tcc-transaction-api
[INFO] tcc-transaction-core
[INFO] tcc-transaction-spring
[INFO] tcc-transaction-tutorial-sample
[INFO] tcc-transaction-http-sample
[INFO] tcc-transaction-http-capital-api
[INFO] tcc-transaction-http-capital

red的依赖：

[INFO] tcc-transaction
[INFO] tcc-transaction-api
[INFO] tcc-transaction-core
[INFO] tcc-transaction-spring
[INFO] tcc-transaction-tutorial-sample
[INFO] tcc-transaction-http-sample
[INFO] tcc-transaction-http-redpacket-api
[INFO] tcc-transaction-http-redpacket

order的依赖：

[INFO] tcc-transaction
[INFO] tcc-transaction-api
[INFO] tcc-transaction-core
[INFO] tcc-transaction-spring
[INFO] tcc-transaction-tutorial-sample
[INFO] tcc-transaction-http-sample
[INFO] tcc-transaction-http-capital-api
[INFO] tcc-transaction-http-redpacket-api
[INFO] tcc-transaction-http-order

如果没有报错，会输出下面类似的启动成功日志（以order的8086端口为例）：

1
2
3

[INFO] Started ServerConnector@6bc6692e{HTTP/1.1,[http/1.1]}{0.0.0.0:8086}
[INFO] Started @17821ms
[INFO] Started Jetty Server

既然命令行方式启动，也可以通过Idea的maven插件代替执行：

但是要使用Debug时，还是会出现地址已经被使用的情况。可以通过在命令行启动mvnDebug：

➜  tcc-transaction git:(master-1.2.x) ✗ mvnDebug -Djetty.http.port=8086 jetty:run -projects tcc-transaction-tutorial-sample/tcc-transaction-http-sample/tcc-transaction-http-order -am
Preparing to Execute Maven in Debug Mode
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0
Listening for transport dt_socket at address: 8000

//当下一步执行Debug后，在终端这里会打印日志：
...
[INFO] Started ServerConnector@74d776fb{HTTP/1.1,[http/1.1]}{0.0.0.0:8086}
[INFO] Started @113766ms
[INFO] Started Jetty Server

然后在Idea中配置Remote，保存后，在右上角点击Debug（也只有Debug，无法选Run）：

打开order的页面，这里是http://localhost:8086

购买一个IPhonx后，三个终端的日志如下：

//资金终端
capital try record called. time seq:2017-11-24 23:26:29
capital confirm record called. time seq:2017-11-24 23:26:33
capital try record called. time seq:2017-11-24 23:26:50

//红包终端
red packet try record called. time seq:2017-11-24 23:26:31
red packet confirm record called. time seq:2017-11-24 23:26:34

//订单终端
order try make payment called.time seq:2017-11-24 23:26:28
order confirm make payment called. time seq:2017-11-24 23:26:32
order try make payment called.time seq:2017-11-24 23:26:49

再买一个Mac，资金都不够了，最终订单失败：

//资金终端
java.lang.RuntimeException: not enough balance!
capital cancel record called. time seq:2017-11-24 23:26:52

//红包终端没有新的输出

//订单终端
java.lang.RuntimeException: not enough balance!
order cancel make payment called.time seq:2017-11-24 23:26:51

数据库信息：

TCC的事务调用流程设计本地事务和远程事务、根事务与分支事务，并且还有一个Proxy代理层。
本地事务、代理事务、远程事务都加上了@Conpensable注解，并且都定义了try/confirm/cancel方法。
为了弄清楚各种事务的调用链，在相关代码上加上日志（补偿事务、资源协调者、业务类）：

sample-http-order（订单主事务）:

1.根事务（订单）的两个拦截器
16:48:22,476 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:ROOT
16:48:22,548 [CompensableTransactionInterceptor] ⭐️root transaction begin, participants size:0
16:48:22,607 [ResourceCoordinatorInterceptor] 添加参与者到事务中,participant:Participant@23b7d68f,当前参与者数量:1
16:48:22,610 [ResourceCoordinatorInterceptor] 事务xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:11137112-7fee-3a85-b17d-13cc79e2f02b,状态:TRYING,参与者数量:1
16:48:22,835 [PaymentServiceImpl] ⭐️order try make payment called.time seq:2017-11-26 16:48:22

2.分支事务1（账户代理）的两个拦截器。这里会先远程RPC调用账户远程事务，完成后，才会接着执行分支事务2
16:48:22,843 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:NORMAL
16:48:22,871 [ResourceCoordinatorInterceptor] 添加参与者到事务中,participant:Participant@a03f70e,当前参与者数量:2
16:48:22,871 [ResourceCoordinatorInterceptor] 事务xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:11137112-7fee-3a85-b17d-13cc79e2f02b,状态:TRYING,参与者数量:2
16:48:22,891 [TradeOrderServiceProxy] ⭐️capital proxy record..事务状态:TRYING

4.分支事务2（红包代理）的两个拦截器。等待账户分支事务的try方法完成后（包括RPC调用），才会开始分支事务2
16:48:24,321 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:NORMAL
16:48:24,345 [ResourceCoordinatorInterceptor] 添加参与者到事务中,participant:Participant@226f03da,当前参与者数量:3
16:48:24,345 [ResourceCoordinatorInterceptor] 事务xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:11137112-7fee-3a85-b17d-13cc79e2f02b,状态:TRYING,参与者数量:3
16:48:24,346 [TradeOrderServiceProxy] ⭐️redPacket proxy record..事务状态:TRYING

6.根事务的try方法执行完成，两个分支事务代理以及远程事务的try方法也都完成了
16:48:25,737 [CompensableTransactionInterceptor] root transaction proceed finished!

7.根事务的commit方法开始。订单（第一个参与者）：23b7d68f，账户（第二个参与者）：a03f70e，红包（最后一个参与者）：226f03da。
16:48:25,737 [CompensableTransactionInterceptor] root transaction commit begins, participants size:3
16:48:25,744 [TransactionManager] 事务状态更新为CONFIRMING,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:11137112-7fee-3a85-b17d-13cc79e2f02b,参与者数量:3
16:48:25,744 [Transaction] 参与者提交事务,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:78226cf3-348f-327d-a21d-4df15d8a1c0b,participant:Participant@23b7d68f

8.根事务的confirm方法。注意这里调用参与者的commit方法先从订单（第一个参与者）开始，而不是红包（最后一个参与者）开始。
️16:48:26,746 [PaymentServiceImpl] ⭐️order confirm make payment called. time seq:2017-11-26 16:48:26

9.分支事务（账户代理，第二个参与者）的confirm方法
16:48:26,756 [Transaction] 参与者提交事务,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:e9e80142-1477-3161-ad50-fc474e70ade1,participant:Participant@a03f70e
16:48:26,756 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:NORMAL
16:48:26,757 [ResourceCoordinatorInterceptor] 事务xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:11137112-7fee-3a85-b17d-13cc79e2f02b,状态:CONFIRMING,参与者数量:3
16:48:26,757 [TradeOrderServiceProxy] ⭐️capital proxy record..事务状态:CONFIRMING

11.分支事务（红包代理，第三个参与者）的confirm方法
16:48:27,873 [Transaction] 参与者提交事务,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:16a32620-06a8-3228-8046-e60516206fdd,participant:Participant@226f03da
16:48:27,874 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:NORMAL
16:48:27,874 [ResourceCoordinatorInterceptor] 事务xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:11137112-7fee-3a85-b17d-13cc79e2f02b,状态:CONFIRMING,参与者数量:3
16:48:27,874 [TradeOrderServiceProxy] ⭐️redPacket proxy record..事务状态:CONFIRMING

13.根事务的commit完成
16:48:28,959 [CompensableTransactionInterceptor] root transaction commit finish, participants size:3
16:48:28,960 [CompensableTransactionInterceptor] root transaction finally, participants size:3

sample-http-capital（资金分支事务）:

3.远程事务的try方法：
16:48:23,024 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:PROVIDER
16:48:23,068 [CompensableTransactionInterceptor] [TRYING]provider transaction propagationNewBegin, participants size:0
16:48:23,096 [ResourceCoordinatorInterceptor] 添加参与者到事务中,participant:Participant@3d279b8e,当前参与者数量:1
16:48:23,097 [ResourceCoordinatorInterceptor] 事务xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:e9e80142-1477-3161-ad50-fc474e70ade1,状态:TRYING,参与者数量:1
16:48:24,276 [CapitalTradeOrderServiceImpl] ⭐️capital try record called. time seq:2017-11-26 16:48:24TRYING
16:48:24,315 [CompensableTransactionInterceptor] [TRYING]provider transaction proceed finish, participants size:1
16:48:24,315 [CompensableTransactionInterceptor] provider transaction finally, participants size:1

10.远程事务的confirm方法：
16:48:26,770 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:PROVIDER
16:48:26,771 [CompensableTransactionInterceptor] [CONFIRMING]provider transaction propagationExistBegin, participants size:1
16:48:26,782 [TransactionManager] 事务状态更新为CONFIRMING,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:e9e80142-1477-3161-ad50-fc474e70ade1,参与者数量:1
16:48:26,782 [Transaction] 参与者提交事务,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:f4b5c1ed-f64c-3e1d-b99d-b57bc2449937,participant:Participant@3d279b8e
16:48:27,788 [CapitalTradeOrderServiceImpl] ⭐️capital confirm record called. time seq:2017-11-26 16:48:27CONFIRMING
16:48:27,871 [CompensableTransactionInterceptor] [CONFIRMING]provider transaction commit finish, participants size:1
16:48:27,871 [CompensableTransactionInterceptor] provider transaction finally, participants size:1

sample-http-redpacket（红包分支事务）:

5.远程事务的try方法：
16:48:24,404 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:PROVIDER
16:48:24,432 [CompensableTransactionInterceptor] [TRYING]provider transaction propagationNewBegin, participants size:0
16:48:24,468 [ResourceCoordinatorInterceptor] 添加参与者到事务中,participant:Participant@403700a,当前参与者数量:1
16:48:24,469 [ResourceCoordinatorInterceptor] 事务xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:16a32620-06a8-3228-8046-e60516206fdd,状态:TRYING,参与者数量:1
16:48:25,705 [RedPacketTradeOrderServiceImpl] ⭐️red packet try record called. time seq:2017-11-26 16:48:25TRYING
16:48:25,732 [CompensableTransactionInterceptor] [TRYING]provider transaction proceed finish, participants size:1
16:48:25,732 [CompensableTransactionInterceptor] provider transaction finally, participants size:1

12.远程事务的confirm方法：
16:48:27,886 [CompensableTransactionInterceptor] [CompensableTransactionInterceptor拦截器],方法类型:PROVIDER
16:48:27,886 [CompensableTransactionInterceptor] [CONFIRMING]provider transaction propagationExistBegin, participants size:1
16:48:27,895 [TransactionManager] 事务状态更新为CONFIRMING,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:16a32620-06a8-3228-8046-e60516206fdd,参与者数量:1
16:48:27,897 [Transaction] 参与者提交事务,xid:globalTransactionId:c1acaf66-0151-3d16-874d-b89840ba49b5,branchQualifier:4812b875-712e-3cd7-92e5-42c1d8d0d8f1,participant:Participant@403700a
16:48:28,901 [RedPacketTradeOrderServiceImpl] ⭐️red packet confirm record called. time seq:2017-11-26 16:48:28CONFIRMING
16:48:28,935 [CompensableTransactionInterceptor] [CONFIRMING]provider transaction commit finish, participants size:1
16:48:28,935 [CompensableTransactionInterceptor] provider transaction finally, participants size:1

调用图如下：

深入解析中间件之-Dubbo

2017-10-17T16:00:00.000Z

Alibaba Dubbo

QuickStart

在IDEA中运行Dubbo的快速入门：

不需要编译源码，不需要安装监控中心（dubbo-monitor）和管理中心（dubbo-admin）
安装并启动ZooKeeper，使用ZK作为Dubbo的注册中心
创建dubbo-demo项目，包含三个模块：api、prodvider、consumer
修改provider模块和consumer模块的注册方式使用ZooKeeper：zookeeper://127.0.0.1:2181
IDEA中启动provider模块的Provider
IDEA中启动consumer模块的Consumer

Provider启动后会一直运行，日志如下：

[20/10/17 09:29:07:007 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Register: dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 09:29:07:007 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Subscribe: provider://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&category=configurators&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 09:29:07:007 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Notify urls for subscribe url provider://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&category=configurators&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, urls: [empty://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&category=configurators&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325], dubbo version: 2.5.6, current host: 127.0.0.1
[09:30:47] Hello world, request from consumer: /10.57.241.44:54685
[20/10/17 09:30:47:047 CST] New I/O server worker #1-1  WARN transport.AbstractServer:  [DUBBO] All clients has discontected from /10.57.241.44:20880. You can graceful shutdown now., dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 09:30:47:047 CST] DubboServerHandler-10.57.241.44:20880-thread-3  INFO dubbo.DubboProtocol:  [DUBBO] disconected from /10.57.241.44:54685,url:dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&channel.readonly.sent=true&codec=dubbo&dubbo=2.5.6&generic=false&heartbeat=60000&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, dubbo version: 2.5.6, current host: 127.0.0.1

Consumer启动后，运行完成，终端就关闭，表示一次RPC调用完成，日志如下：

[20/10/17 09:30:45:045 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Register: consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=consumers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&side=consumer×tamp=1508463045694, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:46:046 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Subscribe: consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=providers,configurators,routers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&side=consumer×tamp=1508463045694, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:46:046 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Notify urls for subscribe url consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=providers,configurators,routers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&side=consumer×tamp=1508463045694, urls: [dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, empty://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=configurators&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&side=consumer×tamp=1508463045694, empty://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=routers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&side=consumer×tamp=1508463045694], dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:46:046 CST] main  INFO transport.AbstractClient:  [DUBBO] Successed connect to server /10.57.241.44:20880 from NettyClient 10.57.241.44 using dubbo version 2.5.6, channel is NettyChannel [channel=[id: 0x0f2ff811, /10.57.241.44:54685 => /10.57.241.44:20880]], dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:46:046 CST] main  INFO transport.AbstractClient:  [DUBBO] Start NettyClient zqhmac/10.57.241.44 connect to the server /10.57.241.44:20880, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:46:046 CST] main  INFO config.AbstractConfig:  [DUBBO] Refer dubbo service com.alibaba.dubbo.demo.DemoService from url zookeeper://127.0.0.1:2181/com.alibaba.dubbo.registry.RegistryService?anyhost=true&application=demo-consumer&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&remote.timestamp=1508462946325&side=consumer×tamp=1508463045694, dubbo version: 2.5.6, current host: 10.57.241.44
Hello world, response form provider: 10.57.241.44:20880

[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO config.AbstractConfig:  [DUBBO] Run shutdown hook now., dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO support.AbstractRegistryFactory:  [DUBBO] Close all registries [zookeeper://127.0.0.1:2181/com.alibaba.dubbo.registry.RegistryService?application=demo-consumer&dubbo=2.5.6&interface=com.alibaba.dubbo.registry.RegistryService&pid=4324×tamp=1508463045739], dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Destroy registry:zookeeper://127.0.0.1:2181/com.alibaba.dubbo.registry.RegistryService?application=demo-consumer&dubbo=2.5.6&interface=com.alibaba.dubbo.registry.RegistryService&pid=4324×tamp=1508463045739, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Destroy unregister url consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=consumers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&side=consumer×tamp=1508463045694, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Destroy unsubscribe url consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=providers,configurators,routers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&side=consumer×tamp=1508463045694, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] ZkClient-EventThread-12-127.0.0.1:2181  INFO zkclient.ZkEventThread: Terminate ZkClient event thread.
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO zookeeper.ZooKeeper: Session: 0x15f376495000001 closed
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO dubbo.DubboProtocol:  [DUBBO] Close dubbo connect: /10.57.241.44:54685-->/10.57.241.44:20880, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO netty.NettyChannel:  [DUBBO] Close netty channel [id: 0x0f2ff811, /10.57.241.44:54685 => /10.57.241.44:20880], dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] main-EventThread  INFO zookeeper.ClientCnxn: EventThread shut down for session: 0x15f376495000001
[20/10/17 09:30:47:047 CST] DubboSharedHandler-thread-1  INFO dubbo.DubboProtocol:  [DUBBO] disconected from /10.57.241.44:20880,url:dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-consumer&check=false&codec=dubbo&dubbo=2.5.6&generic=false&heartbeat=60000&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&remote.timestamp=1508462946325&side=consumer×tamp=1508463045694, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO dubbo.DubboProtocol:  [DUBBO] Close dubbo connect: 10.57.241.44:0-->10.57.241.44:20880, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:30:47:047 CST] DubboShutdownHook  INFO dubbo.DubboProtocol:  [DUBBO] Destroy reference: dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-consumer&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4324&remote.timestamp=1508462946325&side=consumer×tamp=1508463045694, dubbo version: 2.5.6, current host: 10.57.241.44

Process finished with exit code 0

provider和consumer的注册中心配置都是ZooKeeper，查看ZooKeeper的节点信息。
可以看出DemoService的providers目前有dubbo://10.57.241.44:20880。

[zk: localhost:2181(CONNECTED) 12] ls /dubbo/com.alibaba.dubbo.demo.DemoService
[consumers, configurators, routers, providers]
[zk: localhost:2181(CONNECTED) 13] ls /dubbo/com.alibaba.dubbo.demo.DemoService/providers
[dubbo%3A%2F%2F10.57.241.44%3A20880%2Fcom.alibaba.dubbo.demo.DemoService%3Fanyhost%3Dtrue%26application%3Ddemo-provider%26dubbo%3D2.5.6%26generic%3Dfalse%26interface%3Dcom.alibaba.dubbo.demo.DemoService%26methods%3DsayHello%26pid%3D4308%26side%3Dprovider%26timestamp%3D1508462946325]

provider提供了服务：dubbo:service，consumer引用服务：dubbo:reference。
除此之外，provider在启动后，只要没有停止，就需要一直暴露dubbo协议：dubbo:protocol。

provider.xml：

<beans>
    <dubbo:application name="demo-provider"/>
    <dubbo:registry address="zookeeper://127.0.0.1:2181"/>
    <dubbo:protocol name="dubbo" port="20880"/> 

    <bean id="demoService" class="com.alibaba.dubbo.demo.provider.DemoServiceImpl"/>
    <dubbo:service interface="com.alibaba.dubbo.demo.DemoService" ref="demoService"/>
beans>

consumer.xml：

<beans>
    <dubbo:application name="demo-consumer"/>
    <dubbo:registry address="zookeeper://127.0.0.1:2181"/>
    <dubbo:reference id="demoService" check="false" interface="com.alibaba.dubbo.demo.DemoService"/>
beans>

为了模拟provider的负载均衡，我们再启动一个provider，并且更改协议端口为20881。再次查看ZK：

1
2
3

[zk: localhost:2181(CONNECTED) 20] ls /dubbo/com.alibaba.dubbo.demo.DemoService/providers
[dubbo%3A%2F%2F10.57.241.44%3A20881%2Fcom.alibaba.dubbo.demo.DemoService%3Fanyhost%3Dtrue%26application%3Ddemo-provider%26dubbo%3D2.5.6%26generic%3Dfalse%26interface%3Dcom.alibaba.dubbo.demo.DemoService%26methods%3DsayHello%26pid%3D4427%26side%3Dprovider%26timestamp%3D1508464040452
,dubbo%3A%2F%2F10.57.241.44%3A20880%2Fcom.alibaba.dubbo.demo.DemoService%3Fanyhost%3Dtrue%26application%3Ddemo-provider%26dubbo%3D2.5.6%26generic%3Dfalse%26interface%3Dcom.alibaba.dubbo.demo.DemoService%26methods%3DsayHello%26pid%3D4308%26side%3Dprovider%26timestamp%3D1508462946325]

新启动的Provider的日志：

1
2
3

[20/10/17 09:47:21:021 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Register: dubbo://10.57.241.44:20881/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4427&side=provider×tamp=1508464040452, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 09:47:21:021 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Subscribe: provider://10.57.241.44:20881/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&category=configurators&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4427&side=provider×tamp=1508464040452, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 09:47:21:021 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Notify urls for subscribe url provider://10.57.241.44:20881/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&category=configurators&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4427&side=provider×tamp=1508464040452, urls: [empty://10.57.241.44:20881/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&category=configurators&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4427&side=provider×tamp=1508464040452], dubbo version: 2.5.6, current host: 127.0.0.1

启动Consumer，为了观察RPC调用期间，消费者的相关流程，我们在RPC调用完，sleep了1分钟

[20/10/17 09:50:13:013 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Register: consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=consumers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4434&side=consumer×tamp=1508464212849, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:50:13:013 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Subscribe: consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=providers,configurators,routers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4434&side=consumer×tamp=1508464212849, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:50:13:013 CST] main  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Notify urls for subscribe url consumer://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=providers,configurators,routers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4434&side=consumer×tamp=1508464212849, urls: [dubbo://10.57.241.44:20881/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4427&side=provider×tamp=1508464040452, dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, empty://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=configurators&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4434&side=consumer×tamp=1508464212849, empty://10.57.241.44/com.alibaba.dubbo.demo.DemoService?application=demo-consumer&category=routers&check=false&dubbo=2.5.6&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4434&side=consumer×tamp=1508464212849], dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:50:13:013 CST] main  INFO transport.AbstractClient:  [DUBBO] Successed connect to server /10.57.241.44:20881 from NettyClient 10.57.241.44 using dubbo version 2.5.6, channel is NettyChannel [channel=[id: 0x0f2ff811, /10.57.241.44:54772 => /10.57.241.44:20881]], dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:50:13:013 CST] main  INFO transport.AbstractClient:  [DUBBO] Start NettyClient zqhmac/10.57.241.44 connect to the server /10.57.241.44:20881, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:50:14:014 CST] main  INFO transport.AbstractClient:  [DUBBO] Successed connect to server /10.57.241.44:20880 from NettyClient 10.57.241.44 using dubbo version 2.5.6, channel is NettyChannel [channel=[id: 0x4efc180e, /10.57.241.44:54773 => /10.57.241.44:20880]], dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:50:14:014 CST] main  INFO transport.AbstractClient:  [DUBBO] Start NettyClient zqhmac/10.57.241.44 connect to the server /10.57.241.44:20880, dubbo version: 2.5.6, current host: 10.57.241.44
[20/10/17 09:50:14:014 CST] main  INFO config.AbstractConfig:  [DUBBO] Refer dubbo service com.alibaba.dubbo.demo.DemoService from url zookeeper://127.0.0.1:2181/com.alibaba.dubbo.registry.RegistryService?anyhost=true&application=demo-consumer&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4434&remote.timestamp=1508464040452&side=consumer×tamp=1508464212849, dubbo version: 2.5.6, current host: 10.57.241.44
Hello world, response form provider: 10.57.241.44:20880

在这一分钟内，查看ZK的consumers信息：

1
2

[zk: localhost:2181(CONNECTED) 26] ls /dubbo/com.alibaba.dubbo.demo.DemoService/consumers
[consumer%3A%2F%2F10.57.241.44%2Fcom.alibaba.dubbo.demo.DemoService%3Fapplication%3Ddemo-consumer%26category%3Dconsumers%26check%3Dfalse%26dubbo%3D2.5.6%26interface%3Dcom.alibaba.dubbo.demo.DemoService%26methods%3DsayHello%26pid%3D4434%26side%3Dconsumer%26timestamp%3D1508464212849]

再调用多次consumer，可以看到每次RPC调用会负载到不同的provider上：

关闭provider：

[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO config.AbstractConfig:  [DUBBO] Run shutdown hook now., dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO support.AbstractRegistryFactory:  [DUBBO] Close all registries [zookeeper://127.0.0.1:2181/com.alibaba.dubbo.registry.RegistryService?application=demo-provider&dubbo=2.5.6&interface=com.alibaba.dubbo.registry.RegistryService&pid=4308×tamp=1508462946295], dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Destroy registry:zookeeper://127.0.0.1:2181/com.alibaba.dubbo.registry.RegistryService?application=demo-provider&dubbo=2.5.6&interface=com.alibaba.dubbo.registry.RegistryService&pid=4308×tamp=1508462946295, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Destroy unregister url dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO zookeeper.ZookeeperRegistry:  [DUBBO] Destroy unsubscribe url provider://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&category=configurators&check=false&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] ZkClient-EventThread-14-127.0.0.1:2181  INFO zkclient.ZkEventThread: Terminate ZkClient event thread.
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO zookeeper.ZooKeeper: Session: 0x15f376495000000 closed
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO dubbo.DubboProtocol:  [DUBBO] Close dubbo server: /10.57.241.44:20880, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO transport.AbstractServer:  [DUBBO] Close NettyServer bind /0.0.0.0:20880, export /10.57.241.44:20880, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] main-EventThread  INFO zookeeper.ClientCnxn: EventThread shut down for session: 0x15f376495000000
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO dubbo.DubboProtocol:  [DUBBO] Unexport service: dubbo://10.57.241.44:20880/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, dubbo version: 2.5.6, current host: 127.0.0.1
[20/10/17 11:38:58:058 CST] DubboShutdownHook  INFO injvm.InjvmProtocol:  [DUBBO] Unexport service: injvm://127.0.0.1/com.alibaba.dubbo.demo.DemoService?anyhost=true&application=demo-provider&dubbo=2.5.6&generic=false&interface=com.alibaba.dubbo.demo.DemoService&methods=sayHello&pid=4308&side=provider×tamp=1508462946325, dubbo version: 2.5.6, current host: 127.0.0.1

Process finished with exit code 130

深入解析中间件之-Canal

2017-10-09T16:00:00.000Z

canal: 阿里巴巴mysql数据库binlog的增量订阅&消费组件

MySQL binlog

MySQL主从复制

mysql服务端修改配置并重启

$ vi /etc/my.cnf
[mysqld]
log-bin=mysql-bin
binlog-format=ROW
server_id=1

$ mysql -uroot
CREATE USER canal IDENTIFIED BY 'canal';  
GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%' ;
FLUSH PRIVILEGES;

$ sudo service mysqld start

问题：创建canal用户的目的是什么？直接使用现有的用户名可以吗，比如root。
答案：有些用户没有REPLICATION SLAVE, REPLICATION CLIENT的权限，用这些用户连接canal时，无法获取到binlog。
这里的canal用户授权了全部权限，所以客户端可以从canal中获取binlog。

明确两个概念：canal server连接mysql，客户端连接canal server。

canal指的是canal server，它会读取mysql的binlog，解析后存储起来
客户端指的是消费canal server的binlog

本机连接服务端，验证binlog的格式是ROW

$ mysql -h192.168.6.52 -ucanal -pcanal
mysql> show variables like '%binlog_format%';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| binlog_format | ROW   |
+---------------+-------+

mysql主从复制的原理：

master将改变记录到二进制日志(binary log)中；
slave将master的binary log events拷贝到它的中继日志(relay log)；
slave重做中继日志中的事件，将改变反映它自己的数据。

binlog

在启动canal之前，先来了解下什么是mysql的binlog:

mysql> show binlog events;
| Log_name         | Pos   | Event_type  | Server_id | End_log_pos | Info                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
+------------------+-------+-------------+-----------+-------------+--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+
| mysql-bin.000001 |     4 | Format_desc |         1 |         106 | Server ver: 5.1.73-log, Binlog ver: 4                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            |
| mysql-bin.000001 |   106 | Query       |         1 |        1864 | use `mysql`; CREATE TABLE IF NOT EXISTS db (   Host char(60) binary DEFAULT '' NOT NULL, Db char(64) binary DEFAULT '' NOT NULL, User char(16) binary DEFAULT '' NOT NULL, Select_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Insert_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Update_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Delete_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Drop_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Grant_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, References_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Index_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Alter_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_tmp_table_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Lock_tables_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_view_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Show_view_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_routine_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Alter_routine_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Execute_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Event_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Trigger_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, PRIMARY KEY Host (Host,Db,User), KEY User (User) ) engine=MyISAM CHARACTER SET utf8 COLLATE utf8_bin comment='Database privileges' |
| mysql-bin.000001 |  1864 | Query       |         1 |        3518 | use `mysql`; CREATE TABLE IF NOT EXISTS host (  Host char(60) binary DEFAULT '' NOT NULL, Db char(64) binary DEFAULT '' NOT NULL, Select_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Insert_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Update_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Delete_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Drop_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Grant_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, References_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Index_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Alter_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_tmp_table_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Lock_tables_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_view_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Show_view_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Create_routine_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Alter_routine_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Execute_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, Trigger_priv enum('N','Y') COLLATE utf8_general_ci DEFAULT 'N' NOT NULL, PRIMARY KEY Host (Host,Db) ) engine=MyISAM CHARACTER SET utf8 COLLATE utf8_bin comment='Host privileges;  Merged with database privileges' |

mysql数据文件下会生成mysql-bin.xxx的binlog文件，以及索引文件

[qihuang.zheng@dp0652 canal]$ ll /var/lib/mysql/
总用量 26228
drwx------ 2 mysql mysql     4096 10月 11 14:05 canal_test
-rw-rw---- 1 mysql mysql 10485760 9月  30 22:12 ibdata1
-rw-rw---- 1 mysql mysql  5242880 10月 11 09:57 ib_logfile0
-rw-rw---- 1 mysql mysql  5242880 10月 11 09:57 ib_logfile1
drwx------ 2 mysql mysql     4096 8月   2 11:01 mysql
-rw-rw---- 1 mysql mysql    18451 8月   2 11:01 mysql-bin.000001
-rw-rw---- 1 mysql mysql   929226 8月   2 11:01 mysql-bin.000002
-rw-rw---- 1 mysql mysql  4890698 9月  30 22:12 mysql-bin.000003
-rw-rw---- 1 mysql mysql      897 10月 11 14:06 mysql-bin.000004
-rw-rw---- 1 mysql mysql       76 10月 11 09:57 mysql-bin.index
srwxrwxrwx 1 mysql mysql        0 10月 11 09:57 mysql.sock

针对mysql的操作都会有二进制的事件记录到binlog文件中。下面的一些操作包括创建用户，授权，创建数据库，创建表，插入一条记录。

[qihuang.zheng@dp0652 canal]$ sudo strings /var/lib/mysql/mysql-bin.000004
5.1.73-log
CREATE USER canal IDENTIFIED BY 'canal'
root    localhost
GRANT ALL PRIVILEGES ON *.* TO 'canal'@'%'
FLUSH PRIVILEGES
canal_test
create database canal_test    ===》创建数据库
canal_test
create table test (   uid int (4) primary key not null auto_increment,   name varchar(10) not null)  ==》创建表
canal_test
BEGIN     ==》插入记录，这里有事务。但是没有把具体的语句打印出来
canal_test
test
canal_test
COMMIT

Canal QuickStart

canal & config

部署canal server到6.52，并启动。查看canal的日志：

[qihuang.zheng@dp0652 canal]$ cat logs/canal/canal.log
2017-10-11 11:31:52.076 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## start the canal server.
2017-10-11 11:31:52.151 [main] INFO  com.alibaba.otter.canal.deployer.CanalController - ## start the canal server[192.168.6.52:11111]
2017-10-11 11:31:52.644 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## the canal server is running now ......

查看instance的日志：

[qihuang.zheng@dp0652 canal]$ cat logs/example/example.log
2017-10-11 11:31:52.435 [main] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [canal.properties]
2017-10-11 11:31:52.444 [main] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [example/instance.properties]
2017-10-11 11:31:52.587 [main] INFO  c.a.otter.canal.instance.spring.CanalInstanceWithSpring - start CannalInstance for 1-example
2017-10-11 11:31:52.599 [main] INFO  c.a.otter.canal.instance.core.AbstractCanalInstance - start successful....
2017-10-11 11:31:52.679 [destination = example , address = /127.0.0.1:3306 , EventParser] WARN  c.a.otter.canal.parse.inbound.mysql.MysqlEventParser - prepare to find start position just show master status

canal server的conf下有几个配置文件

➜  canal.deployer-1.0.24 tree conf
conf
├── canal.properties
├── example
│   └── instance.properties
├── logback.xml
└── spring
    ├── default-instance.xml
    ├── file-instance.xml
    ├── group-instance.xml
    ├── local-instance.xml
    └── memory-instance.xml

先来看canal.properties的common属性前四个配置项：

canal.id= 1
canal.ip=
canal.port= 11111
canal.zkServers=

canal.id是canal的编号，在集群环境下，不同canal的id不同，注意它和mysql的server_id不同。
ip这里不指定，默认为本机，比如上面是192.168.6.52，端口号是11111。zk用于canal cluster。

再看下canal.properties下destinations相关的配置：

#################################################
#########       destinations        ############# 
#################################################
canal.destinations = example
canal.conf.dir = ../conf
canal.auto.scan = true
canal.auto.scan.interval = 5

canal.instance.global.mode = spring 
canal.instance.global.lazy = false
canal.instance.global.spring.xml = classpath:spring/file-instance.xml

这里的canal.destinations = example可以设置多个，比如example1,example2，
则需要创建对应的两个文件夹，并且每个文件夹下都有一个instance.properties文件。

全局的canal实例管理用spring，这里的file-instance.xml最终会实例化所有的destinations instances:


    
    
    
        
            classpath:canal.properties
            classpath:${canal.instance.destination:}/instance.properties

比如canal.instance.destination等于example，就会加载example/instance.properties配置文件

example下instance.properties配置文件不需要修改。一个canal server可以运行多个canal instance。

#################################################
## mysql serverId，这里的slaveId不能和myql集群中已有的server_id一样
canal.instance.mysql.slaveId = 1234

# position info 这里连接的是mysql master的地址。
canal.instance.master.address = 127.0.0.1:3306
canal.instance.master.journal.name = 
canal.instance.master.position = 
canal.instance.master.timestamp = 

#canal.instance.standby.address = 
#canal.instance.standby.journal.name =
#canal.instance.standby.position = 
#canal.instance.standby.timestamp = 

# username/password
canal.instance.dbUsername = canal
canal.instance.dbPassword = canal
canal.instance.defaultDatabaseName =
canal.instance.connectionCharset = UTF-8

canal.instance.filter.regex = .*\\..*
canal.instance.filter.black.regex =  
#################################################

simple client

在mysql上创建数据库，创建表，插入一条记录，再修改记录。

create database canal_test;
use canal_test;
create table test (   uid int (4) primary key not null auto_increment,   name varchar(10) not null);
insert into test (name) values('10');

修改客户端测试例子的连接信息。其中example对应了canal实例的名称。

public class SimpleCanalClientTest extends AbstractCanalClientTest {
    public static void main(String args[]) {
        String destination = "example";
        CanalConnector connector = CanalConnectors.newSingleConnector(
            new InetSocketAddress("192.168.6.52", 11111), destination, "canal", "canal");
    }
}

注意：如果连接有错误，客户端测试例子会立即结束，打印## stop the canal client。正常的话，终端不会退出，会一直运行。

SimpleCanalClientTest控制台的结果如下：

****************************************************
* Batch Id: [1] ,count : [2] , memsize : [263] , Time : 2017-10-11 14:06:06
* Start : [mysql-bin.000004:396:1507701897000(2017-10-11 14:04:57)] 
* End : [mysql-bin.000004:491:1507701904000(2017-10-11 14:05:04)] 
****************************************************

----------------> binlog[mysql-bin.000004:396] , name[canal_test,] , eventType : QUERY , executeTime : 1507701897000 , delay : 69710ms
 sql ----> create database canal_test

----------------> binlog[mysql-bin.000004:491] , name[canal_test,test] , eventType : CREATE , executeTime : 1507701904000 , delay : 62723ms
 sql ----> create table test (   uid int (4) primary key not null auto_increment,   name varchar(10) not null)

插入一条记录：（其中uid和name的update都等于true）

****************************************************
* Batch Id: [2] ,count : [3] , memsize : [186] , Time : 2017-10-11 14:06:32
* Start : [mysql-bin.000004:659:1507701989000(2017-10-11 14:06:29)] 
* End : [mysql-bin.000004:822:1507701989000(2017-10-11 14:06:29)] 
****************************************************

================> binlog[mysql-bin.000004:659] , executeTime : 1507701989000 , delay : 3142ms
 BEGIN ----> Thread id: 11
----------------> binlog[mysql-bin.000004:785] , name[canal_test,test] , eventType : INSERT , executeTime : 1507701989000 , delay : 3154ms
uid : 1    type=int(4)    update=true
name : 10    type=varchar(10)    update=true
----------------
 END ----> transaction id: 0
================> binlog[mysql-bin.000004:822] , executeTime : 1507701989000 , delay : 3179ms

修改记录：（其中name的update等于true）

****************************************************
* Batch Id: [3] ,count : [3] , memsize : [202] , Time : 2017-10-11 14:49:11
* Start : [mysql-bin.000004:897:1507704547000(2017-10-11 14:49:07)] 
* End : [mysql-bin.000004:1076:1507704547000(2017-10-11 14:49:07)] 
****************************************************

================> binlog[mysql-bin.000004:897] , executeTime : 1507704547000 , delay : 4048ms
 BEGIN ----> Thread id: 13
----------------> binlog[mysql-bin.000004:1023] , name[canal_test,test] , eventType : UPDATE , executeTime : 1507704547000 , delay : 4059ms
uid : 1    type=int(4)
name : zqhxuyuan    type=varchar(10)    update=true
----------------
 END ----> transaction id: 0
================> binlog[mysql-bin.000004:1076] , executeTime : 1507704547000 , delay : 4096ms

canal安装包下的example instance下除了example.log外，还有一个meta.log

[qihuang.zheng@dp0652 canal]$ cat logs/example/meta.log
2017-10-11 14:06:03.728 - clientId:1001 cursor:[mysql-bin.000004,396,1507701897000] address[/127.0.0.1:3306]
2017-10-11 14:06:04.589 - clientId:1001 cursor:[mysql-bin.000004,491,1507701904000] address[localhost/127.0.0.1:3306]
2017-10-11 14:06:29.589 - clientId:1001 cursor:[mysql-bin.000004,822,1507701989000] address[localhost/127.0.0.1:3306]
2017-10-11 14:49:08.589 - clientId:1001 cursor:[mysql-bin.000004,1076,1507704547000] address[localhost/127.0.0.1:3306]

Cannal Internal Overview

canal client & server

canal client与canal server之间是C/S模式的通信，客户端采用NIO，服务端采用Netty。
canal server启动后，如果没有canal client，那么canal server不会去mysql拉取binlog。
即Canal客户端主动发起拉取请求，服务端才会模拟一个MySQL Slave节点去主节点拉取binlog。
通常Canal客户端是一个死循环，这样客户端一直调用get方法，服务端也就会一直拉取binlog。

public class AbstractCanalClientTest {
    protected void process() {
        int batchSize = 5 * 1024; // 一次请求拉取多条记录
        try {
            connector.connect(); // 先连接服务端
            connector.subscribe(); // 订阅
            // keep send request to canal server, thus canal server can fetch binlog from mysql
            while (running) { 
                Message message = connector.getWithoutAck(batchSize); // 获取指定数量的数据
                long batchId = message.getId();
                int size = message.getEntries().size();
                printSummary(message, batchId, size);
                printEntry(message.getEntries());
                connector.ack(batchId); // 提交确认
                //connector.rollback(batchId); // 处理失败, 回滚数据
            }
        } finally {
            connector.disconnect();
        }
    }
}

canal client与canal server之间属于增量订阅/消费，流程图如下：（其中C端是canal client，S端是canal server）

canal client调用connect()方法时，发送的数据包（PacketType）类型为：

HANDSHAKE，
CLIENTAUTHENTICATION。

canal client调用subscribe()方法，类型为[SUBSCRIPTION]。

对应服务端采用netty处理RPC请求（CanalServerWithNetty）:

public class CanalServerWithNetty extends AbstractCanalLifeCycle implements CanalServer {
    public void start() {
        bootstrap.setPipelineFactory(new ChannelPipelineFactory() {
            public ChannelPipeline getPipeline() throws Exception {
                ChannelPipeline pipelines = Channels.pipeline();
                pipelines.addLast(FixedHeaderFrameDecoder.class.getName(), new FixedHeaderFrameDecoder());
                // 处理客户端的HANDSHAKE请求
                pipelines.addLast(HandshakeInitializationHandler.class.getName(),
                    new HandshakeInitializationHandler(childGroups));
                // 处理客户端的CLIENTAUTHENTICATION请求
                pipelines.addLast(ClientAuthenticationHandler.class.getName(),
                    new ClientAuthenticationHandler(embeddedServer));

                // 处理客户端的会话请求，包括SUBSCRIPTION，GET等
                SessionHandler sessionHandler = new SessionHandler(embeddedServer);
                pipelines.addLast(SessionHandler.class.getName(), sessionHandler);
                return pipelines;
            }
        });
    }
}

ClientAuthenticationHandler处理鉴权后，会移除HandshakeInitializationHandler和ClientAuthenticationHandler。
最重要的是会话处理器SessionHandler。

以client发送GET，server从mysql得到binlog后，返回MESSAGES给client为例，说明client和server的rpc交互过程：

SimpleCanalConnector发送GET请求，并读取响应结果的流程：

public Message getWithoutAck(int batchSize, Long timeout, TimeUnit unit) throws CanalClientException {
    waitClientRunning();
    int size = (batchSize <= 0) ? 1000 : batchSize;
    long time = (timeout == null || timeout < 0) ? -1 : timeout; // -1代表不做timeout控制
    if (unit == null) unit = TimeUnit.MILLISECONDS;

    // client发送GET请求
    writeWithHeader(Packet.newBuilder()
        .setType(PacketType.GET)
        .setBody(Get.newBuilder()
            .setAutoAck(false)
            .setDestination(clientIdentity.getDestination())
            .setClientId(String.valueOf(clientIdentity.getClientId()))
            .setFetchSize(size)
            .setTimeout(time)
            .setUnit(unit.ordinal())
            .build()
            .toByteString())
        .build()
        .toByteArray());
    // client获取GET结果    
    return receiveMessages();
}

private Message receiveMessages() throws IOException {
    // 读取server发送的数据包
    Packet p = Packet.parseFrom(readNextPacket());
    switch (p.getType()) {
        case MESSAGES: {
            Messages messages = Messages.parseFrom(p.getBody());
            Message result = new Message(messages.getBatchId());
            for (ByteString byteString : messages.getMessagesList()) {
                result.addEntry(Entry.parseFrom(byteString));
            }
            return result;
        }
    }
}

服务端SessionHandler处理客户端发送的GET请求流程：

case GET:
    // 读取客户端发送的数据包，封装为Get对象
    Get get = CanalPacket.Get.parseFrom(packet.getBody());
    // destination表示canal instance
    if (StringUtils.isNotEmpty(get.getDestination()) && StringUtils.isNotEmpty(get.getClientId())) {
        clientIdentity = new ClientIdentity(get.getDestination(), Short.valueOf(get.getClientId()));
        Message message = null;
        if (get.getTimeout() == -1) {// 是否是初始值
            message = embeddedServer.getWithoutAck(clientIdentity, get.getFetchSize());
        } else {
            TimeUnit unit = convertTimeUnit(get.getUnit());
            message = embeddedServer.getWithoutAck(clientIdentity, get.getFetchSize(), get.getTimeout(), unit);
        }
        // 设置返回给客户端的数据包类型为MESSAGES   
        Packet.Builder packetBuilder = CanalPacket.Packet.newBuilder();
        packetBuilder.setType(PacketType.MESSAGES);
        // 构造Message
        Messages.Builder messageBuilder = CanalPacket.Messages.newBuilder();
        messageBuilder.setBatchId(message.getId());
        if (message.getId() != -1 && !CollectionUtils.isEmpty(message.getEntries())) {
            for (Entry entry : message.getEntries()) {
                messageBuilder.addMessages(entry.toByteString());
            }
        }
        packetBuilder.setBody(messageBuilder.build().toByteString());
        // 输出数据，返回给客户端
        NettyUtils.write(ctx.getChannel(), packetBuilder.build().toByteArray(), null);
    }

get/ack/rollback协议介绍：

Message getWithoutAck(int batchSize)，允许指定batchSize，一次可以获取多条，每次返回的对象为Message，包含的内容为：
– batch id 唯一标识
– entries 具体的数据对象，对应的数据对象格式：EntryProtocol.proto
void rollback(long batchId)，回滚上次的get请求，重新获取数据。基于get获取的batchId进行提交，避免误操作
void ack(long batchId)，确认已经消费成功，通知server删除数据。基于get获取的batchId进行提交，避免误操作

EntryProtocol.protod对应的canal消息结构如下：

Entry  
    Header  
        logfileName [binlog文件名]  
        logfileOffset [binlog position]  
        executeTime [binlog里记录变更发生的时间戳,精确到秒]  
        schemaName   
        tableName  
        eventType [insert/update/delete类型]  
    entryType   [事务头BEGIN/事务尾END/数据ROWDATA]  
    storeValue  [byte数据,可展开，对应的类型为RowChange]  
      
RowChange  
    isDdl       [是否是ddl变更操作，比如create table/drop table]  
    sql         [具体的ddl sql]  
    rowDatas    [具体insert/update/delete的变更数据，可为多条，1个binlog event事件可对应多条变更，比如批处理]  
        beforeColumns [Column类型的数组，变更前的数据字段]  
        afterColumns [Column类型的数组，变更后的数据字段]  
          
Column   
    index         
    sqlType     [jdbc type]  
    name        [column name]  
    isKey       [是否为主键]  
    updated     [是否发生过变更]  
    isNull      [值是否为null]  
    value       [具体的内容，注意为string文本]

SessionHandler中服务端处理客户端的其他类型请求，都会调用CanalServerWithEmbedded的相关方法：

case SUBSCRIPTION:
        Sub sub = Sub.parseFrom(packet.getBody());
        embeddedServer.subscribe(clientIdentity);
case GET:
        Get get = CanalPacket.Get.parseFrom(packet.getBody());
        message = embeddedServer.getWithoutAck(clientIdentity, get.getFetchSize());
case CLIENTACK:
        ClientAck ack = CanalPacket.ClientAck.parseFrom(packet.getBody());
        embeddedServer.ack(clientIdentity, ack.getBatchId());
case CLIENTROLLBACK:
        ClientRollback rollback = CanalPacket.ClientRollback.parseFrom(packet.getBody());
        embeddedServer.rollback(clientIdentity);// 回滚所有批次

所以真正的处理逻辑在CanalServerWithEmbedded中，下面重点来了。。。

CanalServerWithEmbedded

CanalServer包含多个Instance，它的成员变量canalInstances记录了instance名称与实例的映射关系。
因为是一个Map，所以同一个Server不允许出现相同instance名称（本例中实例名称为example），
比如不能同时有两个example在一个server上。但是允许一个Server上有example1和example2。

注意：CanalServer中最重要的是CanalServerWithEmbedded，而CanalServerWithEmbedded中最重要的是CanalInstance。

public class CanalServerWithEmbedded extends AbstractCanalLifeCycle implements CanalServer, CanalService {
    private Map canalInstances;
    private CanalInstanceGenerator     canalInstanceGenerator;
}

下图表示一个server配置了两个Canal实例（instance），每个Client连接一个Instance。
每个Canal实例模拟为一个MySQL的slave，所以每个Instance的slaveId必须不一样。
比如图中两个Instance的id分别是1234和1235，它们都会拉取MySQL主节点的binlog。

这里每个Canal Client都对应一个Instance，每个Client在启动时，
都会指定一个Destination，这个Destination就表示Instance的名称。
所以CanalServerWithEmbedded处理各种请求时的参数都有ClientIdentity，
从ClientIdentity中获取destination，就可以获取出对应的CanalInstance。

理解下各个组件的对应关系：

Canal Client通过destination找出Canal Server中对应的Canal Instance。
一个Canal Server可以配置多个Canal Instances。

下面以CanalServerWithEmbedded的订阅方法为例：

根据客户端标识获取CanalInstance
向CanalInstance的元数据管理器订阅当前客户端
从元数据管理中获取客户端的游标
通知CanalInstance订阅关系发生变化

注意：提供订阅方法的作用是：MySQL新增了一张表，客户端原先没有同步这张表，现在需要同步，所以需要重新订阅。

public void subscribe(ClientIdentity clientIdentity) throws CanalServerException {
    // ClientIdentity表示Canal Client客户端，从中可以获取出客户端指定连接的Destination
    // 由于CanalServerWithEmbedded记录了每个Destination对应的Instance，可以获取客户端对应的Instance
    CanalInstance canalInstance = canalInstances.get(clientIdentity.getDestination());
    if (!canalInstance.getMetaManager().isStart()) {
        canalInstance.getMetaManager().start(); // 启动Instance的元数据管理器
    }
    canalInstance.getMetaManager().subscribe(clientIdentity); // 执行一下meta订阅
    Position position = canalInstance.getMetaManager().getCursor(clientIdentity);
    if (position == null) {
        position = canalInstance.getEventStore().getFirstPosition();// 获取一下store中的第一条
        if (position != null) {
            canalInstance.getMetaManager().updateCursor(clientIdentity, position); // 更新一下cursor
        }
    }
    // 通知下订阅关系变化
    canalInstance.subscribeChange(clientIdentity);
}

每个CanalInstance中包括了四个组件：EventParser、EventSink、EventStore、MetaManager。

服务端主要的处理方法包括get/ack/rollback，这三个方法都会用到Instance上面的几个内部组件，主要还是EventStore和MetaManager：

在这之前，要先理解EventStore的含义，EventStore是一个RingBuffer，有三个指针：Put、Get、Ack。

Put: Canal Server从MySQL拉取到数据后，放到内存中，Put增加
Get: 消费者（Canal Client）从内存中消费数据，Get增加
Ack: 消费者消费完成，Ack增加。并且会删除Put中已经被Ack的数据

这三个操作与Instance组件的关系如下：

客户端通过canal server获取mysql binlog有几种方式（get方法和getWithoutAck）：

如果timeout为null，则采用tryGet方式，即时获取
如果timeout不为null
1. timeout为0，则采用get阻塞方式，获取数据，不设置超时，直到有足够的batchSize数据才返回
2. timeout不为0，则采用get+timeout方式，获取数据，超时还没有batchSize足够的数据，有多少返回多少

private Events getEvents(CanalEventStore eventStore, Position start, int batchSize, Long timeout,
                                TimeUnit unit) {
    if (timeout == null) {
        return eventStore.tryGet(start, batchSize); // 即时获取
    } else if (timeout <= 0){
        return eventStore.get(start, batchSize); // 阻塞获取
    } else {
        return eventStore.get(start, batchSize, timeout, unit); // 异步获取
    }
}

注意：EventStore的实现采用了类似Disruptor的RingBuffer环形缓冲区。RingBuffer的实现类是MemoryEventStoreWithBuffer

get方法和getWithoutAck方法的区别是：

get方法会立即调用ack
getWithoutAck方法不会调用ack

EventStore

以10条数据为例，初始时current=-1，第一个元素起始next=0，end=9，循环[0,9]所有元素。
List元素为(A,B,C,D,E,F,G,H,I,J)

next	entries[next]	next-current-1	list element
0	entries[0]	0-(-1)-1=0	A
1	entries[1]	1-(-1)-1=1	B
2	entries[2]	2-(-1)-1=2	C
3	entries[3]	3-(-1)-1=3	D
.	……….	……….	.
9	entries[9]	9-(-1)-1=9	J

第一批10个元素put完成后，putSequence设置为end=9。假设第二批又Put了5个元素:(K,L,M,N,O)

current=9，起始next=9+1=10，end=9+5=14，在Put完成后，putSequence设置为end=14。

next	entries[next]	next-current-1	list element
10	entries[10]	10-(9)-1=0	K
11	entries[11]	11-(9)-1=1	L
12	entries[12]	12-(9)-1=2	M
13	entries[13]	13-(9)-1=3	N
14	entries[14]	14-(9)-1=3	O

这里假设环形缓冲区的最大大小为15个（源码中是16MB），那么上面两批一共产生了15个元素，刚好填满了环形缓冲区。
如果又有Put事件进来，由于环形缓冲区已经满了，没有可用的slot，则Put操作会被阻塞，直到被消费掉。

下面是Put填充环形缓冲区的代码，检查可用slot（checkFreeSlotAt方法）在几个put方法中。

public class MemoryEventStoreWithBuffer extends AbstractCanalStoreScavenge implements CanalEventStore, CanalStoreScavenge {
    private static final long INIT_SQEUENCE = -1;
    private int               bufferSize    = 16 * 1024;
    private int               bufferMemUnit = 1024;                         // memsize的单位，默认为1kb大小
    private int               indexMask;
    private Event[]           entries;

    // 记录下put/get/ack操作的三个下标
    private AtomicLong        putSequence   = new AtomicLong(INIT_SQEUENCE); // 代表当前put操作最后一次写操作发生的位置
    private AtomicLong        getSequence   = new AtomicLong(INIT_SQEUENCE); // 代表当前get操作读取的最后一条的位置
    private AtomicLong        ackSequence   = new AtomicLong(INIT_SQEUENCE); // 代表当前ack操作的最后一条的位置

    // 启动EventStore时，创建指定大小的缓冲区，Event数组的大小是16*1024
    // 也就是说算个数的话，数组可以容纳16000个事件。算内存的话，大小为16MB
    public void start() throws CanalStoreException {
        super.start();
        indexMask = bufferSize - 1;
        entries = new Event[bufferSize];
    }

    // EventParser解析后，会放入内存中（Event数组，缓冲区）
    private void doPut(List data) {
        long current = putSequence.get(); // 取得当前的位置，初始时为-1，第一个元素为-1+1=0
        long end = current + data.size(); // 最末尾的位置，假设Put了10条数据，end=-1+10=9
        // 先写数据，再更新对应的cursor,并发度高的情况，putSequence会被get请求可见，拿出了ringbuffer中的老的Entry值
        for (long next = current + 1; next <= end; next++) {
            entries[getIndex(next)] = data.get((int) (next - current - 1));
        }
        putSequence.set(end);
    } 
}

Put是生产数据，Get是消费数据，Get一定不会超过Put。比如Put了10条数据，Get最多只能获取到10条数据。但有时候为了保证Get处理的速度，Put和Get并不会相等。
可以把Put看做是生产者，Get看做是消费者。生产者速度可以很快，消费者则可以慢慢地消费。比如Put了1000条，而Get我们只需要每次处理10条数据。

仍然以前面的示例来说明Get的流程，初始时current=-1，假设Put了两批数据一共15条，maxAbleSequence=14，而Get的BatchSize假设为10。
初始时next=current=-1，end=-1。通过startPosition，会设置next=0。最后end又被赋值为9，即循环缓冲区[0,9]一共10个元素。

private Events doGet(Position start, int batchSize) throws CanalStoreException {
    LogPosition startPosition = (LogPosition) start;

    long current = getSequence.get();
    long maxAbleSequence = putSequence.get();
    long next = current;
    long end = current;
    // 如果startPosition为null，说明是第一次，默认+1处理
    if (startPosition == null || !startPosition.getPostion().isIncluded()) { // 第一次订阅之后，需要包含一下start位置，防止丢失第一条记录
        next = next + 1;
    }

    end = (next + batchSize - 1) < maxAbleSequence ? (next + batchSize - 1) : maxAbleSequence;
    // 提取数据并返回
    for (; next <= end; next++) {
        Event event = entries[getIndex(next)];
        if (ddlIsolation && isDdl(event.getEntry().getHeader().getEventType())) {
            // 如果是ddl隔离，直接返回
            if (entrys.size() == 0) {
                entrys.add(event);// 如果没有DML事件，加入当前的DDL事件
                end = next; // 更新end为当前
            } else {
                // 如果之前已经有DML事件，直接返回了，因为不包含当前next这记录，需要回退一个位置
                end = next - 1; // next-1一定大于current，不需要判断
            }
            break;
        } else {
            entrys.add(event);
        }
    }
    // 处理PositionRange，然后设置getSequence为end
    getSequence.compareAndSet(current, end)
}

ack操作的上限是Get，假设Put了15条数据，Get了10条数据，最多也只能Ack10条数据。Ack的目的是清空缓冲区中已经被Get过的数据

public void ack(Position position) throws CanalStoreException {
    cleanUntil(position);
}

public void cleanUntil(Position position) throws CanalStoreException {
    long sequence = ackSequence.get();
    long maxSequence = getSequence.get();

    boolean hasMatch = false;
    long memsize = 0;
    for (long next = sequence + 1; next <= maxSequence; next++) {
        Event event = entries[getIndex(next)];
        memsize += calculateSize(event);
        boolean match = CanalEventUtils.checkPosition(event, (LogPosition) position);
        if (match) {// 找到对应的position，更新ack seq
            hasMatch = true;

            if (batchMode.isMemSize()) {
                ackMemSize.addAndGet(memsize);
                // 尝试清空buffer中的内存，将ack之前的内存全部释放掉
                for (long index = sequence + 1; index < next; index++) {
                    entries[getIndex(index)] = null;// 设置为null
                }
            }

            ackSequence.compareAndSet(sequence, next)
        }
    }
}

rollback回滚方法的实现则比较简单，将getSequence回退到ack位置。

public void rollback() throws CanalStoreException {
    getSequence.set(ackSequence.get());
    getMemSize.set(ackMemSize.get());
}

下图展示了RingBuffer的几个操作示例：

EventParser WorkFlow

EventStore负责存储解析后的Binlog事件，而解析动作负责拉取Binlog，它的流程比较复杂。需要和MetaManager进行交互。
比如要记录每次拉取的Position，这样下一次就可以从上一次的最后一个位置继续拉取。所以MetaManager应该是有状态的。

EventParser的流程如下：

Connection获取上一次解析成功的位置 (如果第一次启动，则获取初始指定的位置或者是当前数据库的binlog位点)
Connection建立链接，发送BINLOG_DUMP指令
Mysql开始推送Binaly Log
接收到的Binaly Log的通过Binlog parser进行协议解析，补充一些特定信息
传递给EventSink模块进行数据存储，是一个阻塞操作，直到存储成功
存储成功后，定时记录Binaly Log位置

上面提到的Connection指的是实现了ErosaConnection接口的MysqlConnection。
EventParser的实现类是实现了AbstractEventParser的MysqlEventParser。

EventParser解析binlog后通过EventSink写入到EventStore，这条链路可以通过EventStore的put方法串联起来：

其实这里还有一个EventTransactionBuffer缓冲区，即Parser解析后先放到缓冲区中，
当事务发生时或者数据超过阈值，就会执行刷新操作：即消费缓冲区的数据，放到EventStore中。
这个缓冲区有两个偏移量指针：putSequence和flushSequence。

Canal HA

单机模拟两个Canal Server，将单机模式复制出两个文件夹，并修改相关配置

canal_m/conf/canal.properties

canal.id= 2
canal.ip=
canal.port= 11112
canal.zkServers=localhost:2181
canal.instance.global.spring.xml = classpath:spring/default-instance.xml

canal_m/conf/example/instance.properties

1	canal.instance.mysql.slaveId = 1235

canal_s

canal.id= 3
canal.ip=
canal.port= 11113
canal.zkServers=localhost:2181
canal.instance.global.spring.xml = classpath:spring/default-instance.xml

canal_s/conf/example/instance.properties

1	canal.instance.mysql.slaveId = 1236

启动canal_m

1
2
3

2017-10-12 14:51:45.202 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## start the canal server.
2017-10-12 14:51:45.776 [main] INFO  com.alibaba.otter.canal.deployer.CanalController - ## start the canal server[192.168.6.52:11112]
2017-10-12 14:51:46.687 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## the canal server is running now ......

启动canal_s

1
2
3

2017-10-12 14:52:18.999 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## start the canal server.
2017-10-12 14:52:19.208 [main] INFO  com.alibaba.otter.canal.deployer.CanalController - ## start the canal server[192.168.6.52:11113]
2017-10-12 14:52:19.364 [main] INFO  com.alibaba.otter.canal.deployer.CanalLauncher - ## the canal server is running now ......

master提供服务，canal_m/logs/example/example.log下有日志，而canal_s/logs没有example文件夹

[qihuang.zheng@dp0652 ~]$ tail -f canal_m/logs/example/example.log
2017-10-12 14:51:46.453 [main] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [canal.properties]
2017-10-12 14:51:46.463 [main] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [example/instance.properties]
2017-10-12 14:51:46.624 [main] INFO  c.a.otter.canal.instance.spring.CanalInstanceWithSpring - start CannalInstance for 1-example
2017-10-12 14:51:46.644 [main] INFO  c.a.otter.canal.instance.core.AbstractCanalInstance - start successful....
2017-10-12 14:51:46.658 [destination = example , address = /127.0.0.1:3306 , EventParser] WARN  c.a.otter.canal.parse.inbound.mysql.MysqlEventParser - prepare to find start position just show master status

查看Canal HA记录在ZK的信息

[zk: 192.168.6.52:2181(CONNECTED) 7] ls /otter/canal/destinations/example/cluster
[192.168.6.52:11112, 192.168.6.52:11113]

[zk: 192.168.6.52:2181(CONNECTED) 10] get /otter/canal/destinations/example/running
{"active":true,"address":"192.168.6.52:11112","cid":2}

启动example的ClusterCanalClientTest

1	CanalConnector connector = CanalConnectors.newClusterConnector("192.168.6.52:2181", destination, "canal", "canal");

执行SQL：update test set name = 'zqh' where uid=1;，控制台打印日志如下：

****************************************************
* Batch Id: [1] ,count : [3] , memsize : [203] , Time : 2017-10-12 15:05:20
* Start : [mysql-bin.000004:1151:1507791918000(2017-10-12 15:05:18)] 
* End : [mysql-bin.000004:1331:1507791918000(2017-10-12 15:05:18)] 
****************************************************

================> binlog[mysql-bin.000004:1151] , executeTime : 1507791918000 , delay : 2080ms
 BEGIN ----> Thread id: 763
----------------> binlog[mysql-bin.000004:1277] , name[canal_test,test] , eventType : UPDATE , executeTime : 1507791918000 , delay : 2092ms
uid : 1    type=int(4)
name : zqh    type=varchar(10)    update=true
----------------
 END ----> transaction id: 0
================> binlog[mysql-bin.000004:1331] , executeTime : 1507791918000 , delay : 2130ms

再次查看ZK中记录的客户端信息：

一个Instance对应一个Client，这里的Instance名称为example，对应的客户端编号是1001
为了验证Instance确实是由指定的Client连接，在Server上查看11112端口

[zk: 192.168.6.52:2181(CONNECTED) 18] get /otter/canal/destinations/example/1001/running
{"active":true,"address":"10.57.241.44:53942","clientId":1001}

[zk: 192.168.6.52:2181(CONNECTED) 19] get /otter/canal/destinations/example/1001/cursor
{"@type":"com.alibaba.otter.canal.protocol.position.LogPosition",
"identity":{"slaveId":-1,"sourceAddress":{"address":"localhost","port":3306}},
"postion":{"included":false,"journalName":"mysql-bin.000004","position":1331,"serverId":1,"timestamp":1507791918000}} ==》serverId表示MySQL的server_id

[qihuang.zheng@dp0652 ~]$ netstat -anpt|grep 11112
tcp        0      0 0.0.0.0:11112               0.0.0.0:*                   LISTEN      27816/java   ==》Canal服务端
tcp        0     19 192.168.6.52:11112          10.57.241.44:53942          ESTABLISHED 27816/java   ==》Canal客户端

停止canal_m

1
2
3

[qihuang.zheng@dp0652 canal_m]$ bin/stop.sh
dp0652: stopping canal 27816 ...
Oook! cost:1

Instance会在slave节点即canal_s上启动

[qihuang.zheng@dp0652 ~]$ tail -f canal_s/logs/example/example.log
2017-10-12 15:17:21.452 [New I/O server worker #1-1] ERROR com.alibaba.otter.canal.server.netty.NettyUtils - ErrotCode:400 , Caused by :
something goes wrong with channel:[id: 0x0c182149, /10.57.241.44:54008 => /192.168.6.52:11113], exception=com.alibaba.otter.canal.server.exception.CanalServerException: destination:example should start first

2017-10-12 15:17:21.661 [pool-1-thread-1] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [canal.properties]
2017-10-12 15:17:21.663 [pool-1-thread-1] INFO  c.a.o.c.i.spring.support.PropertyPlaceholderConfigurer - Loading properties file from class path resource [example/instance.properties]
2017-10-12 15:17:21.767 [pool-1-thread-1] WARN  org.springframework.beans.TypeConverterDelegate - PropertyEditor [com.sun.beans.editors.EnumEditor] found through deprecated global PropertyEditorManager fallback - consider using a more isolated form of registration, e.g. on the BeanWrapper/BeanFactory!
2017-10-12 15:17:21.968 [pool-1-thread-1] INFO  c.a.otter.canal.instance.spring.CanalInstanceWithSpring - start CannalInstance for 1-example
2017-10-12 15:17:21.998 [pool-1-thread-1] INFO  c.a.otter.canal.instance.core.AbstractCanalInstance - start successful....
2017-10-12 15:17:22.071 [destination = example , address = /127.0.0.1:3306 , EventParser] WARN  c.a.otter.canal.parse.inbound.mysql.MysqlEventParser - prepare to find start position just last position
 {"identity":{"slaveId":-1,"sourceAddress":{"address":"localhost","port":3306}},"postion":{"included":false,"journalName":"mysql-bin.000004","position":1331,"serverId":1,"timestamp":1507791918000}}

停止canal_m后，只剩下canal_s，所以Canal集群只有一个节点了：

[zk: 192.168.6.52:2181(CONNECTED) 14] ls /otter/canal/cluster
[192.168.6.52:11113]

[zk: 192.168.6.52:2181(CONNECTED) 5] get /otter/canal/destinations/example/running
{"active":true,"address":"192.168.6.52:11113","cid":3}

切换过程中，Client的日志

2017-10-12 15:17:22.524 [Thread-2] WARN  c.alibaba.otter.canal.client.impl.ClusterCanalConnector - failed to connect to:/192.168.6.52:11113 after retry 0 times
2017-10-12 15:17:22.529 [Thread-2] WARN  c.a.otter.canal.client.impl.running.ClientRunningMonitor - canal is not run any in node
2017-10-12 15:17:27.695 [Thread-2] INFO  c.alibaba.otter.canal.client.impl.ClusterCanalConnector - restart the connector for next round retry.

****************************************************
* Batch Id: [1] ,count : [1] , memsize : [75] , Time : 2017-10-12 15:17:27
* Start : [mysql-bin.000004:1331:1507791918000(2017-10-12 15:05:18)] 
* End : [mysql-bin.000004:1331:1507791918000(2017-10-12 15:05:18)] 
****************************************************
----------------
 END ----> transaction id: 0
================> binlog[mysql-bin.000004:1331] , executeTime : 1507791918000 , delay : 729763ms

再次执行SQL语句

****************************************************
* Batch Id: [2] ,count : [3] , memsize : [198] , Time : 2017-10-12 15:20:56
* Start : [mysql-bin.000004:1406:1507792855000(2017-10-12 15:20:55)] 
* End : [mysql-bin.000004:1581:1507792855000(2017-10-12 15:20:55)] 
****************************************************

================> binlog[mysql-bin.000004:1406] , executeTime : 1507792855000 , delay : 1539ms
 BEGIN ----> Thread id: 763
----------------> binlog[mysql-bin.000004:1532] , name[canal_test,test] , eventType : UPDATE , executeTime : 1507792855000 , delay : 1539ms
uid : 1    type=int(4)
name : zqhx    type=varchar(10)    update=true
----------------
 END ----> transaction id: 0
================> binlog[mysql-bin.000004:1581] , executeTime : 1507792855000 , delay : 1540ms

停止客户端后，查询ZK中的客户端信息。注意，仍然有cursor信息，但是没有running，因为instance没有对应的client了。

[zk: 192.168.6.52:2181(CONNECTED) 1] ls /otter/canal/destinations/example
[running, cluster, 1001]

[zk: 192.168.6.52:2181(CONNECTED) 0] ls /otter/canal/destinations/example/1001
[cursor]

[zk: 192.168.6.52:2181(CONNECTED) 6] get /otter/canal/destinations/example/1001/cursor
{"@type":"com.alibaba.otter.canal.protocol.position.LogPosition",
"identity":{"slaveId":-1,"sourceAddress":{"address":"localhost","port":3306}},
"postion":{"included":false,"journalName":"mysql-bin.000004","position":1581,"serverId":1,"timestamp":1507792855000}}

cursor信息是instance消费binlog的位置，即使客户端停掉了，也仍然保留在zk中。

注意：1001是ClientIdentity的固定编号，相关源码在SimpleCanalConnector的构造方法里。

下面总结下zk中的相关记录：

/otter/canal/
  |- cluster          ==> [192.168.6.52:11112, 192.168.6.52:11113]
  |- destinations     ==> instances
     |- example1/     ==> instance name
     |  |- cluster    ==> [192.168.6.52:11112, 192.168.6.52:11113]
     |  |- running    ==> {"active":true,"address":"192.168.6.52:11112","cid":2}
     |  |- 1001
     |     |- running  ==> {"active":true,"address":"10.57.241.44:53942","clientId":1001}
     |     |- cursor  ==> {localhost:3306,"journalName":"mysql-bin.000004","position":1331,"serverId":1}
     |- example2/
     |  |- cluster    ==> [192.168.6.52:11112, 192.168.6.52:11113]
     |  |- running    ==> {"active":true,"address":"192.168.6.52:11112","cid":2}
     |  |- 1001
     |     |- running  ==> {"active":true,"address":"10.57.241.44:53942","clientId":1001}
     |     |- cursor  ==> {localhost:3306,"journalName":"mysql-bin.000004","position":1331,"serverId":1}

注意这里有两个running节点，第一个是CanalServer，第二个是CanalClient。

/otter/canal/destinations/example1/running: {“active”:true,”address”:”192.168.6.52:11112”,”cid”:2}
/otter/canal/destinations/example1/1001/running: {“active”:true,”address”:”10.57.241.44:53942”,”clientId”:1001}

下图是Canal Server HA的流程图：

canal server要启动某个canal instance时都先向zookeeper进行一次尝试启动判断 (实现：创建EPHEMERAL节点，谁创建成功就允许谁启动)
创建zookeeper节点成功后，对应的canal server就启动对应的canal instance，没有创建成功的canal instance就会处于standby状态
一旦zookeeper发现canal server A创建的节点消失后，立即通知其他的canal server再次进行步骤1的操作，重新选出一个canal server启动instance.
canal client每次进行connect时，会首先向zookeeper询问当前是谁启动了canal instance，然后和其建立链接，一旦链接不可用，会重新尝试connect.

Canal Client HA

Canal Client的方式和canal server方式类似，也是利用zookeeper的抢占EPHEMERAL节点的方式进行控制。

HA的实现，客户端是ClientRunningMonitor，服务端是ServerRunningMonitor。

关于Canal Client HA的验证，可以参考：http://blog.csdn.net/xiaolinzi007/article/details/52933909

在IDEA中同时启动多个客户端，执行一条SQL语句，其中一个客户端会打印日志，另一个不会打印。
停止打印日志的那个客户端（在停止这个客户端之前，日志一直发动到这个客户端，不是负载均衡）。
再次执行SQL语句，另外一个客户端会打印日志。

Client1的日志：

****************************************************
* Batch Id: [3] ,count : [3] , memsize : [198] , Time : 2017-10-12 17:59:59
* Start : [mysql-bin.000004:1656:1507802398000(2017-10-12 17:59:58)] 
* End : [mysql-bin.000004:1831:1507802398000(2017-10-12 17:59:58)] 
****************************************************

================> binlog[mysql-bin.000004:1656] , executeTime : 1507802398000 , delay : 1188ms
 BEGIN ----> Thread id: 768
----------------> binlog[mysql-bin.000004:1782] , name[canal_test,test] , eventType : UPDATE , executeTime : 1507802398000 , delay : 1199ms
uid : 1    type=int(4)
name : zqh    type=varchar(10)    update=true
----------------
 END ----> transaction id: 0
================> binlog[mysql-bin.000004:1831] , executeTime : 1507802398000 , delay : 1236ms
## stop the canal client## canal client is down.

停止Client1后，Client2的日志：

****************************************************
* Batch Id: [4] ,count : [3] , memsize : [198] , Time : 2017-10-12 18:02:15
* Start : [mysql-bin.000004:1906:1507802534000(2017-10-12 18:02:14)] 
* End : [mysql-bin.000004:2081:1507802534000(2017-10-12 18:02:14)] 
****************************************************

================> binlog[mysql-bin.000004:1906] , executeTime : 1507802534000 , delay : 1807ms
 BEGIN ----> Thread id: 768
----------------> binlog[mysql-bin.000004:2032] , name[canal_test,test] , eventType : UPDATE , executeTime : 1507802534000 , delay : 1819ms
uid : 1    type=int(4)
name : zqhx    type=varchar(10)    update=true
----------------
 END ----> transaction id: 0
================> binlog[mysql-bin.000004:2081] , executeTime : 1507802534000 , delay : 1855ms

观察ZK节点中instance对应的client节点，在Client切换时，会进行变更。
比如下面的客户端从56806端口切换到了56842端口。
把所有客户端都关闭后，1001下没有running。表示instance没有客户端消费binlog了。

启动两个客户端，第一个客户端（56806）正在运行
[zk: 192.168.6.52:2181(CONNECTED) 29] get /otter/canal/destinations/example/1001/running
{"active":true,"address":"10.57.241.44:56806","clientId":1001}

停止第一个客户端，删除节点
[zk: 192.168.6.52:2181(CONNECTED) 30] get /otter/canal/destinations/example/1001/running
Node does not exist: /otter/canal/destinations/example/1001/running

第二个客户端（56842）成为主
[zk: 192.168.6.52:2181(CONNECTED) 31] get /otter/canal/destinations/example/1001/running
{"active":true,"address":"10.57.241.44:56842","clientId":1001}

[zk: 192.168.6.52:2181(CONNECTED) 32] ls /otter/canal/destinations/example/1001
[cursor]

具体实现相关类有：ClientRunningMonitor/ClientRunningListener/ClientRunningData。

client running相关控制，主要为解决client自身的failover机制。
canal client允许同时启动多个canal client，
通过running机制，可保证只有一个client在工作，其他client做为冷备.
当运行中的client挂了，running会控制让冷备中的client转为工作模式，
这样就可以确保canal client也不会是单点. 保证整个系统的高可用性.

下图左边是客户端的HA实现，右边是服务端的HA实现

Develop Canal Client

先理解下面的类图结构：

CanalConnector接口，定义了连接、订阅、获取、应答、回滚等方法
SimpleCanalConnector实现，单机版本
ClusterCanalConnector实现，HA版本

subscribe change

重新看下CanalServerWithEmbedded的订阅方法。我们知道客户端在连接服务端的某个destination之后，会紧接着调用subscribe()方法。

客户端连接服务端时，必须指定destination名称，因为一个服务端可能有多个destination。
比如服务端启动了两个Instance，它们的destination名称分别是example1和example2。
假设有两个客户端A和B，A连接example1，B连接example2（在代码中手动指定的，不是自动选择）。
服务端的canalInstances字典为：{example1=>Instance1，example2->Instance2}。
那么ClientA的destination等于example1，对应的服务端实例为Instance1。
ClientB的destination等于example2，对应的服务端实例为Instance3。

/**
 * 客户端订阅，重复订阅时会更新对应的filter信息
 */
public void subscribe(ClientIdentity clientIdentity) throws CanalServerException {
    CanalInstance canalInstance = canalInstances.get(clientIdentity.getDestination());
    if (!canalInstance.getMetaManager().isStart()) {
        canalInstance.getMetaManager().start();
    }

    canalInstance.getMetaManager().subscribe(clientIdentity); // 执行一下meta订阅

    // 根据Client从MetaManager中获取最近一次的Cursor
    Position position = canalInstance.getMetaManager().getCursor(clientIdentity);
    if (position == null) { // 如果没有
        position = canalInstance.getEventStore().getFirstPosition();// 获取一下store中的第一条
        if (position != null) {
            canalInstance.getMetaManager().updateCursor(clientIdentity, position); // 更新一下cursor
        }
        logger.info("subscribe successfully, {} with first position:{} ", clientIdentity, position);
    } else { // 有就直接使用
        logger.info("subscribe successfully, use last cursor position:{} ", clientIdentity, position);
    }

    // 通知下订阅关系变化
    canalInstance.subscribeChange(clientIdentity);
}

这里面关于订阅方法有两个地方，CanalInstance本身调用了subscribeChange，它关联的MetaManager也调用了subscribe方法。

一个CanalServer可以有多个CanalInstance，每个Instance都会有一个MetaManager。
而一个Instance对应一个Client。那么，这么说来，一个MetaManager也就只会有一个Client了。
但是从下面的数据结构来看的话，一个MetaManager貌似可以有多个Destination。

public class MemoryMetaManager extends AbstractCanalLifeCycle implements CanalMetaManager {
    protected Map>              destinations;
    protected Map batches;
    protected Map                  cursors;

    public synchronized void subscribe(ClientIdentity clientIdentity) throws CanalMetaManagerException {
        List clientIdentitys = destinations.get(clientIdentity.getDestination());
        if (clientIdentitys.contains(clientIdentity)) {
            clientIdentitys.remove(clientIdentity);
        }
        clientIdentitys.add(clientIdentity);
    }
}

猜测：多个Client可以连接到同一个Instance（虽然只会有一个Instance起作用），所以一个MetaManager可以管理多个Client。
NO！Client的HA与MetaManager记录的Client是不一样的。HA表示同一时间只有一个Client起作用，那么MetaManager不可能同时记录两个Client。

官方ClientAPI文档上：ClientIdentity是canal client和server交互之间的身份标识，目前clientId写死为1001.
目前canal server上的一个instance只能有一个client消费，
clientId的设计是为1个instance多client消费模式而预留的，暂时不需要理会。

也就是说：一个Instance还是有可能有多个Client连接上来的，只是目前只允许一个而已！！！

这里的数据结构为什么这么设计，还需要参考AbstractMetaManagerTest的doSubscribeTest方法来理解。

对于相同的destination，可以订阅不同的client。下面的示例分别订阅了[client1,client2]和[client1,client3]。

public void doSubscribeTest(CanalMetaManager metaManager) {
    ClientIdentity client1 = new ClientIdentity(destination, (short) 1);
    metaManager.subscribe(client1);
    metaManager.subscribe(client1); // 重复调用：删除旧的client1，并继续增加新的client1
    ClientIdentity client2 = new ClientIdentity(destination, (short) 2);
    metaManager.subscribe(client2);

    List clients = metaManager.listAllSubscribeInfo(destination);
    Assert.assertEquals(Arrays.asList(client1, client2), clients);

    metaManager.unsubscribe(client2);
    ClientIdentity client3 = new ClientIdentity(destination, (short) 3);
    metaManager.subscribe(client3);

    clients = metaManager.listAllSubscribeInfo(destination);
    Assert.assertEquals(Arrays.asList(client1, client3), clients);
}

有不懂的地方，可以看看测试用例，验证自己的想法是否正确。

CanalServerWithEmbedded的订阅方法最后还会调用AbstractCanalInstance的subscribeChange方法。
这里会设置表名的filter，以及黑名单。配置项在instance.properties中。

# table regex
canal.instance.filter.regex = .*\\..*
# table black regex
canal.instance.filter.black.regex =

filter表示客户端要通过Canal Server获取MySQL哪些表的binlog，上面配置项表示获取所有表。

public class AbstractCanalInstance extends AbstractCanalLifeCycle implements CanalInstance {
    protected Long                                   canalId;                                                      // 和manager交互唯一标示
    protected String                                 destination;                                                  // 队列名字
    protected CanalEventStore                 eventStore;                                                   // 有序队列

    protected CanalEventParser                       eventParser;                                                  // 解析对应的数据信息
    protected CanalEventSink> eventSink;                                                    // 链接parse和store的桥接器
    protected CanalMetaManager                       metaManager;                                                  // 消费信息管理器
    protected CanalAlarmHandler                      alarmHandler;                                                 // alarm报警机制

    @Override
    public boolean subscribeChange(ClientIdentity identity) {
        if (StringUtils.isNotEmpty(identity.getFilter())) {
            logger.info("subscribe filter change to " + identity.getFilter());
            AviaterRegexFilter aviaterFilter = new AviaterRegexFilter(identity.getFilter());

            boolean isGroup = (eventParser instanceof GroupEventParser);
            if (isGroup) {
                // 处理group的模式
                List eventParsers = ((GroupEventParser) eventParser).getEventParsers();
                for (CanalEventParser singleEventParser : eventParsers) {// 需要遍历启动
                    ((AbstractEventParser) singleEventParser).setEventFilter(aviaterFilter);
                }
            } else {
                ((AbstractEventParser) eventParser).setEventFilter(aviaterFilter);
            }
        }

        // filter的处理规则
        // a. parser处理数据过滤处理
        // b. sink处理数据的路由&分发,一份parse数据经过sink后可以分发为多份，每份的数据可以根据自己的过滤规则不同而有不同的数据
        // 后续内存版的一对多分发，可以考虑
        return true;
    }
}

对应在EventParser中，存在两个Filter的引用。比如上面eventParser.setEventFilter()方法会设置AbstractEventParser的eventFilter。

public abstract class AbstractEventParser extends AbstractCanalLifeCycle implements CanalEventParser {
    protected CanalLogPositionManager                logPositionManager         = null;
    protected CanalEventSink> eventSink                  = null;
    protected CanalEventFilter                       eventFilter                = null;
    protected CanalEventFilter                       eventBlackFilter           = null;
}

EventParser Implement

AbstractEventParser的start()方法是解析binlog的主要方法。
在启动transactionBuffer和BinLogParser后，
会启动一个后台的工作线程parseThread一直运行：

注意：下面的几个步骤是嵌套在一个while死循环里，最后会进行sleep。

// 开始执行replication
// 1. 构造Erosa连接
erosaConnection = buildErosaConnection();

// 2. 启动一个心跳线程
startHeartBeat(erosaConnection);

// 3. 执行dump前的准备工作
preDump(erosaConnection);

// 4. 连接MySQL数据库
erosaConnection.connect(); 

// 5. 获取最后的位置信息
EntryPosition startPosition = findStartPosition(erosaConnection);
logger.info("find start position : {}", startPosition.toString());
// 重新链接，因为在找position过程中可能有状态，需要断开后重建
erosaConnection.reconnect();

// 定义回调函数，当解析成功后，sink()方法会暂存到缓冲区transactionBuffer中。缓冲区的数据会通过心跳线程放入EventSink
final SinkFunction sinkHandler = new SinkFunction() {
    private LogPosition lastPosition;

    public void sink(EVENT event) {
        CanalEntry.Entry entry = parseAndProfilingIfNecessary(event);
        if (entry != null) {
            transactionBuffer.add(entry);
            this.lastPosition = buildLastPosition(entry);  // 记录一下对应的positions
        }
    }
};

// 6. 开始dump数据
if (StringUtils.isEmpty(startPosition.getJournalName()) && startPosition.getTimestamp() != null) {
    erosaConnection.dump(startPosition.getTimestamp(), sinkHandler);
} else {
    erosaConnection.dump(startPosition.getJournalName(), startPosition.getPosition(), sinkHandler);
}

这里的erosaConnection指的是Canal Server到MySQL的连接。
而前面我们说的客户端（CanalClient）连接CanalConnector指的是CanalClient到CanalServer的连接。

CanalServer到MySQL的连接是要获取binlog的dump数据包。而CanalClient到CanalServer有多种请求（GET/ACK等）。

我们不会具体分析dump的流程，不过粗略看下erosaConnection的MySQL实现MysqlConnection是如何在获取到事件后调用回调函数。

public void dump(String binlogfilename, Long binlogPosition, SinkFunction func) throws IOException {
    updateSettings();
    sendBinlogDump(binlogfilename, binlogPosition);
    // connector指的是CanalServer到MySQL Master服务器的连接，创建一个拉取线程拉取MySQL的binlog
    DirectLogFetcher fetcher = new DirectLogFetcher(connector.getReceiveBufferSize());
    fetcher.start(connector.getChannel());
    LogDecoder decoder = new LogDecoder(LogEvent.UNKNOWN_EVENT, LogEvent.ENUM_END_EVENT);
    LogContext context = new LogContext();
    while (fetcher.fetch()) { // 由于设置了缓冲区的大小，每次dump都只会拉取一批数据
        LogEvent event = null;
        event = decoder.decode(fetcher, context);
        if (!func.sink(event)) break; // 调用回调方法
    }
}

服务端有一个心跳线程，它的目的是消费transactionBuffer，并写入到EventSink中。

protected boolean consumeTheEventAndProfilingIfNecessary(List entrys) {
    boolean result = eventSink.sink(entrys, 
        (runningInfo == null) ? null : runningInfo.getAddress(), destination);
    return result;
}

EventSink最终会将数据写入到EventStore中，即Put到RingBuffer中。回顾下这张图：

CanalController

前面分析了这么多，一直没分析Canal服务是怎么起来的，其实很简单，
执行脚本startup.sh本质上通过CanalLauncher会启动CanalController。

eunomia

[zk: 192.168.6.55:2181(CONNECTED) 3] ls /otter/canal/destinations
[octopus_demeter, example_bak, namelist_test, xiaopang2, namelist2, xiaopang3, namelist1, example, xiaopang]

[zk: 192.168.6.55:2181(CONNECTED) 4] ls /otter/canal/destinations/xiaopang
[eunomia, cluster, 1001, running]

[zk: 192.168.6.55:2181(CONNECTED) 5] ls /otter/canal/destinations/xiaopang/eunomia
[_c_2a900d4e-75fb-4445-b30c-04e1bdb2e5d9-lock-0001381746, runnning, _c_ea33db37-9193-4c75-9e61-85e59e123109-lock-0001381738]

// Eunomia Server？还是Canal Client？
[zk: 192.168.6.55:2181(CONNECTED) 7] get /otter/canal/destinations/xiaopang/eunomia/runnning
10.57.17.100

[zk: 192.168.6.55:2181(CONNECTED) 18] get /otter/canal/destinations/xiaopang/1001/running
{"active":true,"address":"10.57.17.100:60661","clientId":1001}

Spark DataSources Implementation

2017-09-14T16:00:00.000Z

Spark数据源扩展与实践(40行代码实现一个自定义的DataSource)

简单示例

Spark的DataSource API可以方便地扩展。如果没有使用META-INFO这种ServiceLocator机制，则自定义的数据源名称必须是DefaultSource.
并且必须实现RelationProvider接口。

class DefaultSource extends RelationProvider {
  override def createRelation(sqlContext: SQLContext,
                              parameters: Map[String, String]): BaseRelation = {
    ???
  }
}

通常自定义数据源都有不同的配置文件，所以我们也要实现自己的BaseRelation

class DefaultSource extends RelationProvider{
  override def createRelation(sqlContext: SQLContext, parameters: Map[String, String]): BaseRelation = {
    EmptyRelation()
  }
}

case class EmptyRelation() extends BaseRelation {
  override def sqlContext: SQLContext = ???
  override def schema: StructType = ???
}

主要的起始还是BaseRelation的实现类，但是这里怎么获取schema和SQLContext呢。由于DefaultSource的createRelation方法中已经有SQLContext。所以我们可以改成

class DefaultSource extends RelationProvider{
  override def createRelation(sqlContext: SQLContext, parameters: Map[String, String]): BaseRelation = {
    EmptyRelation()(sqlContext)
  }
}

case class EmptyRelation()(@transient val sc: SQLContext) extends BaseRelation {
  override def sqlContext: SQLContext = sc

  override def schema: StructType = ???
}

那么Schema怎么确定呢？通常它需要从DefaultSource的createRelation方法的parameters确定。
所以通常我们会给自定义的BaseRelation加上一个参数：

class DefaultSource extends RelationProvider{
  override def createRelation(sqlContext: SQLContext, parameters: Map[String, String]): BaseRelation = {
    EmptyRelation(parameters)(sqlContext)
  }
}

case class EmptyRelation(parameters: Map[String, String])(@transient val sc: SQLContext) extends BaseRelation {
  override def sqlContext: SQLContext = sc

  override def schema: StructType = ???
}

这个schema的具体实现必须依赖于如何读取数据源。所以EmptyRelation还需要实现另外一个接口：TableScan

case class EmptyRelation(parameters: Map[String, String])
                        (@transient val sc: SQLContext) 
  extends BaseRelation with TableScan{
  override def sqlContext: SQLContext = sc

  override def schema: StructType = ???

  override def buildScan(): RDD[Row] = ???
}

现在有两个方法需要我们自己实现。buildScan表示如何读取数据源，并生成RDD[ROW]。
下面以一个简单的示例入门：

case class EmptyRelation(parameters: Map[String, String])
                        (@transient val sc: SQLContext) 
  extends BaseRelation with TableScan{
  override def sqlContext: SQLContext = sc

  override def schema: StructType = {
    StructType(List(
      StructField("id", IntegerType), 
      StructField("name", StringType),
      StructField("age", IntegerType)
    ))
  }

  override def buildScan(): RDD[Row] = {
    val rdd = sqlContext.sparkContext.parallelize(
      List(
        (1, "A", 20),
        (2, "B", 25)
      )
    )
    rdd.map(row => Row.fromSeq(Seq(row._1, row._2, row._3)))
  }
}

接下来就可以运行测试例子了：

object TestExample {

  def main(args: Array[String]) {
    val spark = SparkSession.builder().master("local").getOrCreate()
    val df = spark.read.format("com.zqh.spark.connectors.test.empty").load()
    df.printSchema()
    df.show()
  }
}

什么，只有40行代码，就实现了自定义的DataSource!!!

root
 |-- id: integer (nullable = true)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)

+---+----+---+
| id|name|age|
+---+----+---+
|  1|   A| 20|
+---+----+---+

上面示例EmptyRelation中，schema方法和buildScan方法有如下特点：

schema定义了三个字段，则buildScan中每一行Row都必须有三个元素
RDD的每一行Row是数据，而schema对应了数据的元数据，schema可以任意指定

总结下自定义数据源相关的类：

RelationProvider                  BaseRelation    TableScan
       /|\                            /|\            /|\                   spark
        |                              |              |        ------------------
        |                              |              |                    user
        |                           schema()     buildScan()    
DefaultSource                          |              |
        |                              |              |
        |                              |              |
        ·                              |              |
createRelation()  --------------------> EmptyRelation

JDBC DataSource

开启mysql的查询日志，对应的日志文件是/usr/local/var/mysql/zqhmac.log：

mysql> set GLOBAL general_log = on;
Query OK, 0 rows affected (0.08 sec)

mysql> show VARIABLES like '%general_log%';
+------------------+---------------------------------+
| Variable_name    | Value                           |
+------------------+---------------------------------+
| general_log      | ON                              |
| general_log_file | /usr/local/var/mysql/zqhmac.log |
+------------------+---------------------------------+

spark读取jdbc有多种方式：

1. 全量读取，只有一个分区

val url = "jdbc:mysql://localhost/test"
val table = "test"
val properties = new java.util.Properties
properties.put("user", "root")
properties.put("password", "root")

val df = spark.read.jdbc(url, table, properties)

df.rdd.partitions.size # 1

后台日志：

1	2008 Query SELECT `id`,`name`,`total` FROM test

Spark UI上可以看到只有一个Executor和一个Task：

如果数据量太大，就会报错OOM：

2. 指定上下界，自动分片

val columnName = "id"
val lowerBound = 1
val upperBound = 1000
val numPartitions = 5

val df = spark.read.jdbc(url,table,columnName,lowerBound,upperBound,numPartitions,properties)

df.rdd.partitions.size # 指定的分区数量

指定上下界有个限制条件是分区字段必须是整数类型：

def jdbc(
    url: String,
    table: String,
    columnName: String,
    lowerBound: Long,
    upperBound: Long,
    numPartitions: Int,
    connectionProperties: Properties): DataFrame = {
  // columnName, lowerBound, upperBound and numPartitions override settings in extraOptions.
  this.extraOptions ++= Map(
    JDBCOptions.JDBC_PARTITION_COLUMN -> columnName,
    JDBCOptions.JDBC_LOWER_BOUND -> lowerBound.toString,
    JDBCOptions.JDBC_UPPER_BOUND -> upperBound.toString,
    JDBCOptions.JDBC_NUM_PARTITIONS -> numPartitions.toString)
  jdbc(url, table, connectionProperties)
}

spark的做法是根据上下界，分区个数，自动切分。这种场景主要针对数据库的主键是自增字段（当然是整数了）。

因为自增的数字分布很均匀，所以给定上下界和分区的数量，每个分区拉取的数据也是很均匀的。

后台日志：

2010 Query SELECT `id`,`name`,`total` FROM test WHERE id < 201 or id is null
2011 Query SELECT `id`,`name`,`total` FROM test WHERE id >= 201 AND id < 401
2012 Query SELECT `id`,`name`,`total` FROM test WHERE id >= 401 AND id < 601
2013 Query SELECT `id`,`name`,`total` FROM test WHERE id >= 601 AND id < 801
2014 Query SELECT `id`,`name`,`total` FROM test WHERE id >= 801

3. 手动构造predicates

val predicates = Array(
  "id>=0 and id<10",
  "id>=10 and id<100",
  "id>=100 and id<1000"
)

val df = spark.read.jdbc(url, table, predicates, properties)

df.rdd.partitions.size # 3，predicates数组有几个，对应几个分区

后台日志：

1
2
3

2016 Query SELECT `id`,`name`,`total` FROM test WHERE id>=0 and id<10
2017 Query SELECT `id`,`name`,`total` FROM test WHERE id>=10 and id<100
2018 Query SELECT `id`,`name`,`total` FROM test WHERE id>=100 and id<1000

如果数据分布不均匀，可以采用这种方式，而且这种方式不限于主键、整数类型，可以是任意类型，任意字段。

比如我们的测试mysql表数据如下：

mysql> select * from test;
+-----+------+-------+
| id  | name | total |
+-----+------+-------+
|   1 | A    |     1 |
|   2 | B    |     2 |
|   3 | C    |     3 |
|  11 | A    |    12 |
|  12 | B    |    12 |
|  13 | C    |    12 |
| 100 | 1    |     0 |
| 101 | 2    |     1 |
| 102 | 2    |     1 |
+-----+------+-------+

现在要根据name列进行手动指定查询方式:

val predicates = Array(
  "name = 'A'",
  "name = 'B'",
  "name = 'C'",
  "name in('1','2')"
)

val df = spark.read.jdbc(url, table, predicates, properties)

df.show

后台日志：

2020 Query SELECT `id`,`name`,`total` FROM test WHERE name = 'A'
2022 Query SELECT `id`,`name`,`total` FROM test WHERE name = 'C'
2023 Query SELECT `id`,`name`,`total` FROM test WHERE name = 'B'
2021 Query SELECT `id`,`name`,`total` FROM test WHERE name in('1','2')

由于是自定义查询条件，所以我们可以使用任何方式，比如limit方法：

val predicates = Array(
  "1=1 order by name limit 3 offset 0",
  "1=1 order by name limit 3 offset 3",
  "1=1 order by name limit 3 offset 6"
)

val df = spark.read.jdbc(url, table, predicates, properties)
df.count

后台日志：

1
2
3

2025 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 3
2026 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 6
2027 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 0

动态指定排序字段和个数：

val orderByColumn = "name"
val limitCount = 3
val predicates = Array(
  s"1=1 order by $orderByColumn limit $limitCount offset 0",
  s"1=1 order by $orderByColumn limit $limitCount offset ${limitCount}",
  s"1=1 order by $orderByColumn limit $limitCount offset ${limitCount*2}"
)

val df = spark.read.jdbc(url, table, predicates, properties)
df.count

后台日志：

1
2
3

2030 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 3
2029 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 0
2031 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 6

当然上面的predicates还是不够智能，正确的做法是先查询总数，然后根据limitCount构造predicates数组。

val orderByColumn = "name"
val limitCount = 3
//val totalCount = spark.read.jdbc(url, table, properties).count  // 日志：SELECT 1 FROM test
val countDF = spark.read.jdbc(url, s"(select count(*) from $table) tmp", properties) // SELECT * FROM (select count(*) from test) tmp WHERE 1=0
val totalCount = countDF.take(1)(0).getAs[Long](0) // SELECT `count(*)` FROM (select count(*) from test) tmp

val split = totalCount / limitCount
val predicates = for(i <- 0l to split) yield s"1=1 order by $orderByColumn limit $limitCount offset ${limitCount * i}"
val df = spark.read.jdbc(url, table, predicates.toArray, properties)
df.count

后台日志：

2050 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 0
2051 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 6
2052 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 3
2053 Query SELECT 1 FROM test WHERE 1=1 order by name limit 3 offset 9

JDBC实现

spark.read.jdbc进入DataFrameReader，真正执行在load()方法中：

def load(paths: String*): DataFrame = {
  sparkSession.baseRelationToDataFrame(
    DataSource.apply(
      sparkSession,
      paths = paths,
      userSpecifiedSchema = userSpecifiedSchema,
      className = source,
      options = extraOptions.toMap).resolveRelation())
}

JDBC格式对应的Provider就定义在DataSource中：

object DataSource extends Logging {
  private val backwardCompatibilityMap: Map[String, String] = {
    val jdbc = classOf[JdbcRelationProvider].getCanonicalName
    val json = classOf[JsonFileFormat].getCanonicalName
    val csv = classOf[CSVFileFormat].getCanonicalName
    Map(
      "org.apache.spark.sql.jdbc" -> jdbc,
      "org.apache.spark.sql.json" -> json,
      "com.databricks.spark.csv" -> csv
    )
  }
}

jdbc数据源的定义类是：JdbcRelationProvider

JDBC扩展

参考: http://blog.csdn.net/cjuexuan/article/details/52333970

category是唯一键，存在则更新num，不存在则插入category,num。

INSERT INTO ip_category_count
(category,num,createTime)
VALUES(?,?,CURRENT_TIMESTAMP)
ON DUPLICATE KEY UPDATE
num=?,updateTime=CURRENT_TIMESTAMP

对应的Statemen写法， set时从1开始，get时从0开始：

ps.setInt(1, row.getInt(0))
ps.setLong(2, row.getLong(1))
ps.setLong(3, row.getLong(1))
ps.executeUpdate()

假设有下面的SQL：

1 2	INSERT INTO test_1 (`id`,`year`,count`) VALUES (?,?,?) ON DUPLICATE KEY UPDATE `id`=?,`year`=?,`count`=?

对应的写法：

ps.setInt(1, row.getInt(0))
ps.setString(2, row.getLong(1))
ps.setLong(3, row.getLong(2))
-------------------------------
ps.setInt(4, row.getInt(0))
ps.setString(5, row.getLong(1))
ps.setLong(6, row.getLong(2))

总结出来的规则：stmt.setInt(pos + 1, row.getInt(pos - offset))

1 2	1. i stmt.setInt(i + 1, row.getInt(i - 0)) 2. i>=midField, position=i, offset=midField => stmt.setInt(i + 1, row.getInt(i - midField))

以3个字段为例，当i时：



i=0: stmt.setInt(0 + 1, row.getInt(0 - 0)), stmt.setInt(1, row.getInt(0))
i=1: stmt.setInt(1 + 1, row.getInt(1 - 0)), stmt.setInt(2, row.getInt(1))
i=2: stmt.setInt(2 + 1, row.getInt(2 - 0)), stmt.setInt(3, row.getInt(2))

当i>=midField时：

i=3: stmt.setInt(3 + 1, row.getInt(3 - 3)), stmt.setInt(3, row.getInt(0))
i=4: stmt.setInt(4 + 1, row.getInt(4 - 3)), stmt.setInt(4, row.getInt(1))
i=5: stmt.setInt(5 + 1, row.getInt(5 - 3)), stmt.setInt(5, row.getInt(2))

setter方法的第一个参数：index of setter，第二个参数：index of row。
比如对于i小于midField而言，get的位置等于索引减去0；i大于midField而言，get的位置等于索引减去3。
1
2
3
4
5
6
7
8
row[1,2,3]
setter(0)    =》 set(0+1, get(0-0))    =》 set(1, get(0))
setter(1)    =》 set(1+1, get(1-0))    =》 set(2, get(1))
setter(2)    =》 set(2+1, get(2-0))    =》 set(3, get(2))
--------------------------------------------------------
setter(3)    =》 set(3+1, get(3-3))    =》 set(4, get(0))
setter(4)    =》 set(4+1, get(4-3))    =》 set(5, get(1))
setter(5)    =》 set(5+1, get(5-3))    =》 set(6, get(2))

代码：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
val length = rddSchema.fields.length
val numFields = if (isUpdateMode) length * 2 else length // real num Field length

var i = 0
val midField = numFields / 2
while (i < numFields) {
  //if duplicate ,'?' size = 2 * row.field.length
  if (isUpdateMode) { // 更新模式
    i < midField match {
      // check midField > i ,if midFiled >i ,rowIndex is setterIndex - (setterIndex/2) + 1
      case true ⇒ // insert部分
        if (row.isNullAt(i)) {
          stmt.setNull(i + 1, nullTypes(i))
        } else {
          setters(i).apply(stmt, row, i, 0)
        }
      case false ⇒ // update部分
        if (row.isNullAt(i - midField)) {
          stmt.setNull(i + 1, nullTypes(i - midField))
        } else {
          setters(i).apply(stmt, row, i, midField)
        }
    }
  } else {  // 直接插入
    if (row.isNullAt(i)) {
      stmt.setNull(i + 1, nullTypes(i))
    } else {
      setters(i).apply(stmt, row, i, 0)
    }
  }
  i = i + 1
}

总结下对应关系：
1
2
3
4
5
6

setter[i]:  | 0 | 1 | 2 | 3 | 4 | 5 |
position:   | 0 | 1 | 2 | 3 | 4 | 5 |
offset:     | 0 | 0 | 0 | 3 | 3 | 3 |
setXXX:     | 1 | 2 | 3 | 4 | 5 | 6 |   i+1
getXXX:     | 0 | 1 | 2 | 0 | 1 | 2 |   position-offset



StreamingPro
2017-09-03T16:00:00.000Z
https://github.com/allwefantasy/streamingpro/

单个Job的配置示例：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
{
  "you-first-streaming-job": {
    "desc": "just a example",
    "strategy": "spark",
    "algorithm": [],
    "ref": [
    ],
    "compositor": [
      {
        "name": "stream.sources",
        "params": [
          {
            "format": "socket",
            "outputTable": "test",
            "port": "9999",
            "host": "localhost",
            "path": "-"
          }
        ]
      },
      {
        "name": "stream.sql",
        "params": [
          {
            "sql": "select avg(value) avgAge from test",
            "outputTableName": "test3"
          }
        ]
      },
      {
        "name": "stream.sql",
        "params": [
          {
            "sql": "select count(value) as nameCount from test",
            "outputTableName": "test1"
          }
        ]
      },
      {
        "name": "stream.sql",
        "params": [
          {
            "sql": "select sum(value) ageSum from test",
            "outputTableName": "test2"
          }
        ]
      },
      {
        "name": "stream.sql",
        "params": [
          {
            "sql": "select * from test1 union select * from test2 union select * from test3",
            "outputTableName": "test4"
          }
        ]
      },
      {
        "name": "stream.outputs",
        "params": [
          {
            "name": "jack",
            "format": "console",
            "path": "-",
            "inputTableName": "test4",
            "mode": "Overwrite"
          }
        ]
      }
    ],
    "configParams": {
    }
  }
}

多个Job的配置示例：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
{
   "you-first-streaming-job": {
     "desc": "just a example",
     "strategy": "spark",
     "algorithm": [],
     "ref": [
     ],
     "compositor": [
     ],
     "configParams": {
     }
   },
   "you-second-streaming-job": {
        "desc": "just a example",
        "strategy": "spark",
        "algorithm": [],
        "ref": [
        ],
        "compositor": [
        ],
        "configParams": {
        }
      }
 }

StreamingPro支持Spark、SparkStreaming、SparkStruncture、Flink。入口类都是统一的StreamingApp。
1
2
3
4
5
6
7
object StreamingApp {
  def main(args: Array[String]): Unit = {
    val params = new ParamsUtil(args)
    require(params.hasParam("streaming.name"), "Application name should be set")
    PlatformManager.getOrCreate.run(params)
  }
}

通过streaming.platform可以指定不同的运行平台。当然，不同的运行引擎的jar包也不同。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
SHome=/Users/allwefantasy/streamingpro

./bin/spark-submit   --class streaming.core.StreamingApp \
--master local[2] \
--name test \
$SHome/streamingpro-spark-2.0-0.4.15-SNAPSHOT.jar    \
-streaming.name test    \
-streaming.platform spark_streaming \
-streaming.job.file.path file://$SHome/spark-streaming.json

bin/flink run -c streaming.core.StreamingApp \ 
/Users/allwefantasy/streamingpro/streamingpro.flink-0.4.14-SNAPSHOT-online-1.2.0.jar \
-streaming.name god \
-streaming.platform flink_streaming \
-streaming.job.file.path file:///Users/allwefantasy/streamingpro/flink.json

jar包会被用来加载不同的Runtime。Runtime运行的映射关系定义在PlatformManager的platformNameMapping变量中。
Runtime是一个接口，最主要的是startRuntime方法和params方法。后面我们把Runtime叫做执行引擎。
1
2
3
4
5
6
7
8
9
10
11
trait StreamingRuntime {
  def startRuntime: StreamingRuntime
  def destroyRuntime(stopGraceful: Boolean, stopContext: Boolean = false): Boolean
  def streamingRuntimeInfo: StreamingRuntimeInfo
  def resetRuntimeOperator(runtimeOperator: RuntimeOperator)
  def configureStreamingRuntimeInfo(streamingRuntimeInfo: StreamingRuntimeInfo)
  def awaitTermination
  def startThriftServer
  def startHttpServer
  def params: JMap[Any, Any]
}

StreamingPro本质上还是通过spark-submit运行。框架的整体运行流程在PlatformManager的run方法中。主要的步骤有：

设置配置信息
根据反射机制，创建并获取运行时环境
获取dispatcher以及所有的strategies
启动REST服务、Thrift服务、注册ZK（可选）
启动执行引擎，并等待作业完成


关于Dispatcher、Strategy的概念，参考作者的ServiceframeworkDispatcher项目。
反射创建执行引擎，调用的是对应Object类的getOrCreate方法，并传入params参数，最后实例化为StreamingRuntime。

1
2
3
4
5
6
7
def platformNameMapping = Map[String, String](
  SPAKR_S_S -> "streaming.core.strategy.platform.SparkStructuredStreamingRuntime",
  SPAKR_STRUCTURED_STREAMING -> "streaming.core.strategy.platform.SparkStructuredStreamingRuntime",
  FLINK_STREAMING -> "streaming.core.strategy.platform.FlinkStreamingRuntime",
  SPAKR_STREAMING -> "streaming.core.strategy.platform.SparkStreamingRuntime",
  SPARK -> "streaming.core.strategy.platform.SparkRuntime"
)

注意：StreamingPro的Runtime只是Spark作业的执行引擎，具体根据配置文件加载策略是ServiceframeworkDispatcher的工作。
假设我们定义了下面的一个配置文件，由于采用了shortName，需要定义一个ShortNameMapping
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
{
  "convert-multi-csv-to-json": {
    "desc": "测试",
    "strategy": "spark",
    "algorithm": [
      {
        "name": "testProcessor"
      }
    ],
    "ref": [],
    "compositor": [
      {
        "name": "testCompositor"
      }
    ],
    "configParams": {
    }
  }
}

DefaultShortNameMapping的定义如下。这样配置文件中的spark就和ServiceframeworkDispatcher的加载过程对应起来了。
1
2
3
4
5
6
7
8
9
10
11
class DefaultShortNameMapping extends ShortNameMapping {
  private val compositorNameMap: Map[String, String] = Map[String, String](
    "spark" -> "serviceframework.dispatcher.test.DefaultStrategy",
    "testProcessor" -> "serviceframework.dispatcher.test.TestProcessor",
    "testCompositor" -> "serviceframework.dispatcher.test.TestCompositor"
  )
  override def forName(shortName: String): String = {
    if (compositorNameMap.contains(shortName)) compositorNameMap(shortName)
    else shortName
  }
}

ServiceframeworkDispatcher的核心是StrategyDispatcher，这个类在创建的时候，会读取配置文件。
然后解析配置文件中的strategy、algorithm(processor)、ref、compositor、configParams等配置项，并构造对应的对象。
ServiceframeworkDispatcher是一个模块组合框架，它主要定义了Compositor、Processor、Strategy三个接口。
Strategy接口包含了processor、ref、compositor，以及初始化和result方法。
1
2
3
4
5
6
7
8
9
10
trait Strategy[T] extends ServiceInj{
  def processor:JList[Processor[T]]
  def ref:JList[Strategy[T]]
  def compositor:JList[Compositor[T]]
  def name:String
  def initialize(name:String,alg:JList[Processor[T]],ref:JList[Strategy[T]],com:JList[Compositor[T]],params:JMap[Any,Any])
  def result(params:JMap[Any,Any]):JList[T]
  def configParams:util.Map[Any, Any]
  def stop = {}
}

Strategy策略的初始化需要算法、引用、组合器，以及配置信息，对应的方法是StrategyDispatcher的createStrategy方法。
注意下面的initialize方法，createAlgorithms和createCompositors初始化时
会读取params配置，这是一个嵌套了Map的列表：JList[JMap[String, Any]]。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
def createStrategy(name: String, desc: JMap[_, _]): Option[Strategy[T]] = {
  if (_strategies.contains(name)) return None;
  // 实例化策略，如果有shortName，则先获取fullName，并通过Class.forName实例化具体的策略类
  val strategy = Class.forName(shortNameMapping.forName(desc.get("strategy").asInstanceOf[String])).newInstance().asInstanceOf[Strategy[T]]
  // 读取配置信息，并实例化为Map[Any,Any]
  val configParams: JMap[Any, Any] = if (desc.containsKey("configParams")) desc.get("configParams").asInstanceOf[JMap[Any, Any]] else new java.util.HashMap()
  // 初始化策略，需要创建算法、引用、组合器
  strategy.initialize(name, createAlgorithms(desc), createRefs(desc), createCompositors(desc), configParams)
  _strategies.put(name, strategy)
  Option(strategy)
}

// 创建算法。一个策略由0个或者多个算法提供结果
private def createAlgorithms(jobJMap: JMap[String, Any]): JList[Processor[T]] = {
  if (!jobJMap.contains("algorithm") && !jobJMap.contains("processor")) return new AList[Processor[T]]()
  val processors = if (jobJMap.contains("algorithm")) jobJMap("algorithm") else jobJMap("processor")
  processors.asInstanceOf[JList[JMap[String, Any]]].map {
    alg =>
      val name = shortName2FullName(alg)
      val processor = Class.forName(name).newInstance().asInstanceOf[Processor[T]]
      val params: JList[JMap[String, Any]] = if (alg.contains("params")) alg("params").asInstanceOf[JList[JMap[String, Any]]] else new AList[JMap[String, Any]]()
      processor.initialize(name, params)
      processor
  }
}

// 创建组合器，可以多个，按顺序调用。有点类似过滤器链。第一个过滤器会接受算法或者策略的结果。后续的组合器就只能处理上一阶段的组合器吐出的结果
private def createCompositors(jobJMap: JMap[String, Any]): JList[Compositor[T]] = {
  if (!jobJMap.contains("compositor")) return new AList()
  val compositors = jobJMap.get("compositor")
  compositors.asInstanceOf[JList[JMap[String, Any]]].map {
    f =>
      val compositor = Class.forName(shortName2FullName(f)).newInstance().asInstanceOf[Compositor[T]]
      val params: JList[JMap[String, Any]] = if (f.contains("params")) f.get("params").asInstanceOf[JList[JMap[String, Any]]] else new AList[JMap[String, Any]]()
      compositor.initialize(f.get("typeFilter").asInstanceOf[JList[String]], params)
      compositor
  }
}

ServiceframeworkDispatcher的核心是StrategyDispatcher，而StrategyDispatcher的核心是其dispatch方法。
1
2
3
4
5
6
def dispatch(params: JMap[Any, Any]): JList[T] = {
  findStrategies(clientType) match {
    case Some(strategies) =>
      strategies.flatMap { f => f.result(params) }
  }
}

不同执行引擎的启动方法实现不同：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
class SparkRuntime(_params: JMap[Any, Any]) extends StreamingRuntime with PlatformManagerListener {
  override def startRuntime: StreamingRuntime = this

  var sparkSession: SparkSession = createRuntime
  def createRuntime = {
    //...创建SparkSession，这里会根据参数判断是否支持Hive、Carbondata
  }

  params.put("_session_", sparkSession) //将SparkSession放入params中
  registerUDF  

  override def params: JMap[Any, Any] = _params
}

class SparkStreamingRuntime(_params: JMap[Any, Any]) extends StreamingRuntime with PlatformManagerListener { self =>
  var streamingContext: StreamingContext = createRuntime
  def createRuntime = {
    //创建StreamingContext，并将SparkSession放入params中
  }

  override def startRuntime = {
    streamingContext.start()
    this
  }
  override def awaitTermination = streamingContext.awaitTermination()
}

但真正执行StreamingPro主流程在streamingpro-commons下的SparkStreamingStrategy类。
注意：如果是spark-1.6，则streamingpro-spark下也有一个SparkStreamingStrategy类。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
class SparkStreamingStrategy[T] extends Strategy[T] with DebugTrait with JobStrategy {
  var _ref: util.List[Strategy[T]] = _
  var _compositor: util.List[Compositor[T]] = _
  var _processor: util.List[Processor[T]] = _
  var _configParams: util.Map[Any, Any] = _

  def result(params: util.Map[Any, Any]): util.List[T] = {
    ref.foreach { r => r.result(params) } // 先执行ref
    if (compositor != null && compositor.size() > 0) {
      // 第一个Compositor, 产生第一个中间结果
      var middleR = compositor.get(0).result(processor, ref, null, params)
      // 将新的中间结果运用到下一个Compositor
      // 第一个Compositor的结果运用到第二个的输入, 第二个Compositor的结果运用到第三个Compositor的输入...
      // 所以不同Compositor是链式执行的
      for (i <- 1 until compositor.size()) {
        middleR = compositor.get(i).result(processor, ref, middleR, params)
      }
      middleR
    } else new util.ArrayList[T]()
  }  
}

注意：配置文件中每个Job都有一个strategy级别的configParams，ref也会使用这个全局的configParams。
它是一个Map[String, Any]的结构。每个Compositor和Processor内部也有一个params配置，这是一个数组。

实际上，全局的configParams参数会被用在Strategy、Ref/Processor和Compositor的result()方法的最后一个参数。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
"compositor": [
  {
    "name": "testCompositor",
    "params": [
      {
        "sql": "select avg(value) avgAge from test",
        "outputTableName": "test3"
      },
      {
        "sql": "select sum(value) sumAge from test",
        "outputTableName": "test4"
      }
    ]
  }
],

接下来以读取多个数据源的Compositor实现类为例：

_configParams是在创建Compositor时初始化调用的，这是一个List[Map[String, Any]]的结构，对应了params列表配置
如果需要替换，则会先处理配置信息
接着，从params中获取SparkSession（还记得之前创建Runtime时放入Map中吗？），
然后，执行sparkSession.read.format(xx).options(Map).load(path)
最后，通过df.createOrReplaceTempView创建Spark SQL的临时表，名称为outputTable

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
class MultiSQLSourceCompositor[T] extends Compositor[T] with CompositorHelper {
  private var _configParams: util.List[util.Map[Any, Any]] = _

  override def initialize(typeFilters: util.List[String], configParams: util.List[util.Map[Any, Any]]): Unit = {
    this._configParams = configParams
  }

  override def result(alg: util.List[Processor[T]], ref: util.List[Strategy[T]], middleResult: util.List[T], params: util.Map[Any, Any]): util.List[T] = {

    _configParams.foreach { sourceConfig =>
      val name = sourceConfig.getOrElse("name", "").toString

      val _cfg = sourceConfig.map(f => (f._1.toString, f._2.toString)).map { f =>
        (f._1, params.getOrElse(s"streaming.sql.source.${name}.${f._1}", f._2).toString)
      }.toMap

      val sourcePath = _cfg("path")
      val df = sparkSession(params).read.format(sourceConfig("format").toString).options(
        (_cfg - "format" - "path" - "outputTable").map(f => (f._1.toString, f._2.toString))).load(sourcePath)
      df.createOrReplaceTempView(_cfg.getOrElse("outputTable", _cfg.getOrElse("outputTableName", "")))
    }
    List()
  }
}

为了支持配置的动态替换，_cfg参数会做一些处理，比如上面的s"streaming.sql.source.${name}.${f._1}"如果需要被替换，则会被替换为f._2。
下表列举了StreamingPro支持的几种替换方式。



配置参数
配置示例
动态传参数




streaming.sql.source.[name].[参数]
“path”: “file:///tmp/sample_article.txt”
-streaming.sql.source.firstSource.path  file:///tmp/wow.txt


streaming.sql.out.[name].[参数]
“path”: “file:///tmp/sample_article.txt”
-streaming.sql.source.firstSink.path  file:///tmp/wow_20170101.txt


streaming.sql.params.[param-name]
“sql”: “select * from test where hp_time=:today”
-streaming.sql.params.today “20170101”



假设有两个数据输入源和一个输出目标的配置如下：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
{
  "name": "batch.sources",
  "params": [
    {
      "name":"firstSource",
      "path": "file:///tmp/sample_article.txt",
      "format": "com.databricks.spark.csv",
      "outputTable": "article",
      "header":true
    },
    {
        "name":"secondSource",
        "path": "file:///tmp/sample_article2.txt",
        "format": "com.databricks.spark.csv",
        "outputTable": "article2",
        "header":true
      }
  ]
},
{
  "name": "batch.outputs",
  "params": [
    {
      "name":"firstSink",
      "path": "file:///tmp/sample_article.txt",
      "format": "com.databricks.spark.csv",
      "outputTable": "article",
      "header":true
    }
  ]
}

Source的功能是：读取输入源形成DataFrame，然后创建临时表。其他组件比如SQL也是类似的。至此StreamingPro的大致流程就分析完了。 



CarbonData
2017-07-12T16:00:00.000Z
Apache CarbonData

Apache CarbonData
版本：carbondata-1.1.0，spark-2.1.1，hadoop-2.6.0
1
2
3
4
$ mvn -DskipTests -Pspark-2.1 -Dspark.version=2.1.1 -Dhadoop.version=2.6.0 clean package

$ ll assembly/target/scala-2.11
8.9M  7 12 16:14 carbondata_2.11-1.1.1-shade-hadoop2.6.0.jar

本地模式测试，创建CarbonSession的第一个参数为本地文件系统
1
2
3
4
5
6
7
8
bin/spark-shell --jars ~/Github/carbondata-parent-1.1.0/assembly/target/scala-2.11/carbondata_2.11-1.1.1-shade-hadoop2.6.0.jar

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.CarbonSession._
val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("/tmp/carbon")
carbon.sql("CREATE TABLE IF NOT EXISTS test_table(id string,name string,city string,age Int)STORED BY 'carbondata'")
carbon.sql("LOAD DATA INPATH '/Users/zhengqh/Downloads/spark-2.1.1-bin-hadoop2.7/sample.csv' INTO TABLE test_table")
carbon.sql("SELECT city, avg(age), sum(age) FROM test_table GROUP BY city").show()

本地文件系统的文件夹包括Fact（表数据）、Metadata(表结构)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
➜  carbondata-parent-1.1.0 tree /tmp/carbon
/tmp/carbon
├── default
│   └── test_table
│       ├── Fact
│       │   └── Part0
│       │       └── Segment_0
│       │           ├── 0_batchno0-0-1499845043969.carbonindex
│       │           └── part-0-0_batchno0-0-1499845043969.carbondata
│       └── Metadata
│           ├── 3d8bd318-a620-419b-b0fd-c276936375e2.dict
│           ├── 3d8bd318-a620-419b-b0fd-c276936375e2.dictmeta
│           ├── 3d8bd318-a620-419b-b0fd-c276936375e2_27.sortindex
│           ├── f2f45986-6fb6-42af-b991-513ee43aad01.dict
│           ├── f2f45986-6fb6-42af-b991-513ee43aad01.dictmeta
│           ├── f2f45986-6fb6-42af-b991-513ee43aad01_18.sortindex
│           ├── f93ce55d-b82a-4eca-9076-e21dcd819218.dict
│           ├── f93ce55d-b82a-4eca-9076-e21dcd819218.dictmeta
│           ├── f93ce55d-b82a-4eca-9076-e21dcd819218_30.sortindex
│           ├── schema
│           └── tablestatus
└── modifiedTime.mdt

yarn模式按照官网部署http://carbondata.apache.org/installation-guide.html

注意：使用yarn模式，不需要把carbondata通过scp分发到各个节点，只需要在Driver端有就可以。另外，当前版本不依赖kettle

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
cd spark-2.1.1*
mkdir carbonlib
cp ~/carbondata_2.11-1.1.1-shade-hadoop2.6.0.jar carbonlib
cp ~/carbon.properties conf

tar -zcvf carbondata.tar.gz carbonlib/
mv carbondata.tar.gz carbonlib/

$ vi conf/spark-defaults.conf
spark.executor.extraJavaOptions -Dcarbon.properties.filepath=/usr/install/spark-2.1.1-bin-2.6.0-cdh5.9.0/conf/carbon.properties
spark.driver.extraJavaOptions   -Dcarbon.properties.filepath=/usr/install/spark-2.1.1-bin-2.6.0-cdh5.9.0/conf/carbon.properties
spark.driver.extraClassPath     /usr/install/spark-2.1.1-bin-2.6.0-cdh5.9.0/carbonlib/*
spark.executor.extraClassPath   /usr/install/spark-2.1.1-bin-2.6.0-cdh5.9.0/carbonlib/*
spark.yarn.dist.files           /usr/install/spark-2.1.1-bin-2.6.0-cdh5.9.0/conf/carbon.properties
spark.yarn.dist.archives        /usr/install/spark-2.1.1-bin-2.6.0-cdh5.9.0/carbonlib/carbondata.tar.gz

启动spark-shell还需要加上--jars。注意创建CarbonSession时第一个参数必须加上hdfs前缀，否则会报错找不到文件
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
$ bin/spark-shell --jars /home/admin/carbondata_2.11-1.1.1-shade-hadoop2.6.0.jar

sql("CREATE TABLE IF NOT EXISTS test_table1(id string,name string,city string,age Int)")
sql("insert into table test_table1 values('1','david','shenzhen',31)")
sql("insert into table test_table1 values('2','eason','shenzhen',20)")
sql("insert into table test_table1 values('3','jarry','wuhan',35)")

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.CarbonSession._
val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://tdhdfs/user/tongdun/carbon","/home/admin/carbon")

carbon.sql("CREATE TABLE IF NOT EXISTS test_table2(id string,name string,city string,age Int)STORED BY 'carbondata'")
carbon.sql("INSERT INTO test_table2 SELECT * FROM test_table1") // insert #1
carbon.sql("select * from test_table2").show
carbon.sql("INSERT INTO test_table2 SELECT * FROM test_table1") // insert again
carbon.sql("select * from test_table2").show

carbon.sql("INSERT overwrite table test_table2 SELECT * FROM test_table1") // overwrite

carbondata运行在HDFS时，它的事实数据与元数据保存在HDFS上。

将hdfs表数据导入到carbondata建立的表后，执行一些查询语句，观察ui。

注意：导入数据时，carbondata分为两个步骤：全局字典（GlobalDictionary）和CarbonDataRDD。
其中全局字典会在Metadata下生产索引文件，CarbonDataRDD会在Fact下生成数据文件。


CarbonData数据导入与查询
建立crosspartner carbondata表
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.CarbonSession._
val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession("hdfs://tdhdfs/user/tongdun/carbon","/home/admin/carbon")

carbon.sql("drop table cross_partner_carbon")
carbon.sql("""CREATE TABLE IF NOT EXISTS cross_partner_carbon(
  partnerCode string,
  eventType string,
  idNumber string,
  accountMobile string,
  accountEmail string,
  accountPhone string,
  deviceId string,
  cardNumber string,
  contact1Mobile string,
  contact2Mobile string,
  contact3Mobile string,
  contact4Mobile string,
  contact5Mobile string,
  contact1IdNumber string,
  contact2IdNumber string,
  contact3IdNumber string,
  contact4IdNumber string,
  contact5IdNumber string,
  sequenceId string
)
STORED BY 'carbondata'
TBLPROPERTIES ('DICTIONARY_EXCLUDE'='sequenceId')
""")

再生成carbondata表：
1
2
3
4
5
6
7
8
9
10
11
carbon.sql("insert into cross_partner_carbon select * from crosspartner")

spark.sql("select count(*) from cross2partner_dt").show
carbon.sql("select count(*) from cross_partner_carbon_dm").show

spark.sql("select * from cross2partner_dt").show
carbon.sql("select * from cross_partner_carbon_dm").show

val idnumber=""
spark.sql(s"select sequenceId from cross2partner_dt where partnerCode='007fenqi' and eventType='Loan' and idNumber='$idnumber'").show
carbon.sql(s"select sequenceId from cross_partner_carbon_dm where partnerCode='007fenqi' and eventType='Loan' and idNumber='$idnumber'").show

比较crosspartner_hdfs的过滤与carbondata的查询
1
carbon.sql("select sequenceId from cross_partner_carbon where partnerCode='qufenqi' and eventType='Loan' and idNumber=''").show

实验结果
创建carbondata表时，如果默认所有字段都加上索引，导入数据时Executor会报错OOM。
如果去掉所有字段的索引，导入数据很快，但是查询速度就满了。
比较磁盘空间的大小，没有索引下，Parquet和Carbondata差不多

问题
1. Hive表与CarbonData表
activity事件数据,只取借贷和放贷的数据，并保存成临时表crosspartner_hdfs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
spark.sql("""CREATE TABLE crosspartner_hdfs(
  partnerCode string,
  eventType string,
  idNumber string,
  accountMobile string,
  accountEmail string,
  accountPhone string,
  deviceId string,
  cardNumber string,
  contact1Mobile string,
  contact2Mobile string,
  contact3Mobile string,
  contact4Mobile string,
  contact5Mobile string,
  contact1IdNumber string,
  contact2IdNumber string,
  contact3IdNumber string,
  contact4IdNumber string,
  contact5IdNumber string,
  sequenceId string
) partitioned by(ds string)
""")

spark.sql("""insert into table crosspartner_hdfs partition(ds='201706')
select 
  activity_map.partnerCode as partnerCode,
  activity_map.eventType as eventType,
  activity_map.idNumber as idNumber,
  activity_map.accountMobile as accountMobile,
  activity_map.accountEmail as accountEmail,
  activity_map.accountPhone as accountPhone,
  activity_map.deviceId as deviceId,
  activity_map.cardNumber as cardNumber,
  activity_map.contact1Mobile as contact1Mobile,
  activity_map.contact2Mobile as contact2Mobile,
  activity_map.contact3Mobile as contact3Mobile,
  activity_map.contact4Mobile as contact4Mobile,
  activity_map.contact5Mobile as contact5Mobile,
  activity_map.contact1IdNumber as contact1IdNumber,
  activity_map.contact2IdNumber as contact2IdNumber,
  activity_map.contact3IdNumber as contact3IdNumber,
  activity_map.contact4IdNumber as contact4IdNumber,
  activity_map.contact5IdNumber as contact5IdNumber,
  activity_map.sequenceId as sequenceId
from activity 
where year=2017 and month=6
and activity_map.eventType in('Loan','Lending')
""")

上面如果建表时没有指定存储为parquet,最后是part-xxx。
而且即使指定了parquet,insert sql也不能指定分区数量。  
下面改用parquet文件夹加上手动分区的形式:cross_partner_hdfs。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
import java.text.SimpleDateFormat
import java.util.{Calendar,Date}
def year(ymd: String) = ymd.substring(0,4)
def month(ymd: String) = {
  var month=ymd.substring(4,6)
  if(month.startsWith("0")) month=ymd.substring(5,6)
  month
}
def day(ymd: String) = {
  var d=ymd.substring(6,8)
  if(d.startsWith("0")) d=ymd.substring(7,8)
  d
}
//写成parquet文件夹
def genCrossData(beg: String, end: String) = {
    var cal = Calendar.getInstance()
    var datef=new SimpleDateFormat("yyyyMMdd")
    var beginTime=datef.parse(beg)
    var endTime=datef.parse(end)
    while(beginTime.compareTo(endTime)<=0){
      cal.setTime(beginTime);
      var ymd=datef.format(beginTime)
      println(ymd)
      var y=year(ymd)
      var m=month(ymd)
      var d=day(ymd)
      spark.sql(s"""
        select 
          activity_map.partnerCode as partnerCode,
          activity_map.eventType as eventType,
          activity_map.idNumber as idNumber,
          activity_map.accountMobile as accountMobile,
          activity_map.accountEmail as accountEmail,
          activity_map.accountPhone as accountPhone,
          activity_map.deviceId as deviceId,
          activity_map.cardNumber as cardNumber,
          activity_map.contact1Mobile as contact1Mobile,
          activity_map.contact2Mobile as contact2Mobile,
          activity_map.contact3Mobile as contact3Mobile,
          activity_map.contact4Mobile as contact4Mobile,
          activity_map.contact5Mobile as contact5Mobile,
          activity_map.contact1IdNumber as contact1IdNumber,
          activity_map.contact2IdNumber as contact2IdNumber,
          activity_map.contact3IdNumber as contact3IdNumber,
          activity_map.contact4IdNumber as contact4IdNumber,
          activity_map.contact5IdNumber as contact5IdNumber,
          activity_map.sequenceId as sequenceId
        from activity 
        where year=$y and month=$m and day=$d 
        and activity_map.eventType in('Loan','Lending')
        """).repartition(1).write.mode("overwrite").parquet(s"/user/hive/warehouse/cross_partner_hdfs/ds=$ymd")
      cal.add(Calendar.DATE,1);
      beginTime=cal.getTime();
    }
}
genCrossData("20170101","20170630")

genCrossData("20170621","20170630")

查询parquet，建立临时表，使用SparkSQL查询
1
2
3
4
5
6
val df=spark.read.parquet("/user/hive/warehouse/cross_partner_hdfs/*")
df.createOrReplaceTempView("cross_partner_hdfs")

spark.sql("select * from cross_partner_hdfs").show

spark.sql("select sequenceId from cross_partner_hdfs where partnerCode='qufenqi' and eventType='Loan' and idNumber=''").show

使用临时表的数据插入到carbondata table
1
2
3
4
val df=spark.read.parquet("/user/hive/warehouse/cross_partner_hdfs/*")
df.createOrReplaceTempView("cross_partner_hdfs")

carbon.sql("insert into cross_partner_carbon select * from cross_partner_hdfs")

carbondata不认识用df注册的临时表：

创建hive表时指定parquet格式，并从parquet文件夹的数据直接生成表
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
spark.sql("""CREATE TABLE crosspartner(
  partnerCode string,
  eventType string,
  idNumber string,
  accountMobile string,
  accountEmail string,
  accountPhone string,
  deviceId string,
  cardNumber string,
  contact1Mobile string,
  contact2Mobile string,
  contact3Mobile string,
  contact4Mobile string,
  contact5Mobile string,
  contact1IdNumber string,
  contact2IdNumber string,
  contact3IdNumber string,
  contact4IdNumber string,
  contact5IdNumber string,
  sequenceId string
) partitioned by(ds string) stored as parquet
""")

import java.text.SimpleDateFormat
import java.util.{Calendar,Date}
def genCrossData(beg: String, end: String) = {
    var cal = Calendar.getInstance()
    var datef=new SimpleDateFormat("yyyyMMdd")
    var beginTime=datef.parse(beg)
    var endTime=datef.parse(end)
    while(beginTime.compareTo(endTime)<=0){
      cal.setTime(beginTime);
      var ymd=datef.format(beginTime)
      var df = spark.read.parquet(s"/user/hive/warehouse/cross_partner_hdfs/ds=$ymd")
      df.repartition(1).write.mode("overwrite").parquet(s"/user/hive/warehouse/crosspartner/ds=$ymd")
      spark.sql(s"alter table crosspartner add partition(ds='$ymd')")
      cal.add(Calendar.DATE,1);
      beginTime=cal.getTime();
    }
}
genCrossData("20170101","20170630")

或者直接用parquet文件创建外部表：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
spark.sql("""
create external table cross2partner_dt(
  partnerCode string,
  eventType string,
  idNumber string,
  accountMobile string,
  accountEmail string,
  accountPhone string,
  deviceId string,
  cardNumber string,
  contact1Mobile string,
  contact2Mobile string,
  contact3Mobile string,
  contact4Mobile string,
  contact5Mobile string,
  contact1IdNumber string,
  contact2IdNumber string,
  contact3IdNumber string,
  contact4IdNumber string,
  contact5IdNumber string,
  sequenceId string    
) 
partitioned by (ds string)
stored as parquet
location '/user/hive/warehouse/cross_partner_hdfs'
""")
spark.sql(s"alter table cross2partner_dt add partition(ds='20170101')")

import java.text.SimpleDateFormat
import java.util.{Calendar,Date}
def genCrossData(beg: String, end: String) = {
    var cal = Calendar.getInstance()
    var datef=new SimpleDateFormat("yyyyMMdd")
    var beginTime=datef.parse(beg)
    var endTime=datef.parse(end)
    while(beginTime.compareTo(endTime)<=0){
      cal.setTime(beginTime);
      var ymd=datef.format(beginTime)
      spark.sql(s"alter table cross2partner_dt add partition(ds='$ymd')")
      cal.add(Calendar.DATE,1);
      beginTime=cal.getTime();
    }
}
genCrossData("20170102","20170630")

一次性将所有数据插入carbondata太慢了
1
carbon.sql(s"insert into cross_partner_carbon select * from crosspartner where ds like '$ymd%'")

改用按月/天插入carbondata表
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import java.text.SimpleDateFormat
import java.util.{Calendar,Date}
def genCrossCarbonData(beg: String, end: String) = {
    var cal = Calendar.getInstance()
    var datef=new SimpleDateFormat("yyyyMM")
    var beginTime=datef.parse(beg)
    var endTime=datef.parse(end)
    while(beginTime.compareTo(endTime)<=0){
      cal.setTime(beginTime);
      var ymd=datef.format(beginTime)
      println(ymd) 
      carbon.sql(s"insert into cross_partner_carbon select * from cross2partner_dt where ds like '$ymd%'")
      cal.add(Calendar.DATE,1);
      beginTime=cal.getTime();
    }
}
genCrossCarbonData("201701","201706")

导入数据时还是会报错：
增加内存：
1
2
3
4
5
bin/spark/shell \
--conf spark.executor.instances=15 \
--conf spark.executor.cores=2 \
--conf spark.executor.memory=8g \
--conf spark.driver.memory=8g \

2. carbondata其他设置
1
2
3
4
5
6
7
carbon.sql("""CREATE TABLE IF NOT EXISTS crosspartner1(
...
STORED BY 'carbondata'
TBLPROPERTIES ('DICTIONARY_EXCLUDE'='sequenceId,idNumber,accountMobile,accountEmail,accountPhone,deviceId,cardNumber,contact1Mobile,contact2Mobile,contact3Mobile,contact4Mobile,contact5Mobile,contact1IdNumber,contact2IdNumber,contact3IdNumber,contact4IdNumber,contact5IdNumber')
""")

carbon.sql("insert into crosspartner1 select * from cross_partner_hdfs")

3. carbon thrift server
1
2
3
4
5
6
7
8
9
10
11


bin/spark-submit \
--conf spark.sql.hive.thriftServer.singleSession=true \
--hiveconf hive.server2.thrift.port=10002 \
--hiveconf hive.server2.thrift.bind.host="192.168.39.25" \
--class org.apache.carbondata.spark.thriftserver.CarbonThriftServer \
carbonlib/carbondata_2.11-1.1.1-shade-hadoop2.6.0.jar \
hdfs://tdhdfs/user/tongdun/carbon
hdfs://tdhdfs/user/hive/warehouse/carbon.store
hdfs://tdhdfs/user/tongdun/carbondata/CarbonStore

4. spark-2.2.0
carbondata-1.1.1目前不支持spark2.2。如果加上profile，更改spark版本为2.2.0，编译不通过
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
$ mvn -DskipTests -Pspark-2.2 -Dspark.version=2.2.0 -Dhadoop.version=2.6.0 clean package

[WARNING] /Users/zhengqh/Github/carbondata-parent-1.1.1/integration/spark-common/src/main/scala/org/apache/carbondata/spark/rdd/UpdateCoalescedRDD.scala:23: warning: imported `RDD' is permanently hidden by definition of class RDD in package rdd
[INFO] import org.apache.spark.rdd.{CoalescedRDDPartition, DataLoadPartitionCoalescer, RDD}
[INFO]                                                                                 ^
[WARNING] /Users/zhengqh/Github/carbondata-parent-1.1.1/integration/spark-common/src/main/scala/org/apache/carbondata/spark/util/CarbonScalaUtil.scala:125: warning: non-variable type argument Any in type pattern scala.collection.Map[Any,Any] is unchecked since it is eliminated by erasure
[INFO]         case m: scala.collection.Map[Any, Any] =>
[INFO]                                  ^
[ERROR] /Users/zhengqh/Github/carbondata-parent-1.1.1/integration/spark-common/src/main/scala/org/apache/spark/sql/optimizer/CarbonDecoderOptimizerHelper.scala:87: error: value child is not a member of org.apache.spark.sql.catalyst.plans.logical.InsertIntoTable
[INFO]       case i: InsertIntoTable => process(i.child, nodeList)
[INFO]                                            ^
[WARNING] 11 warnings found
[ERROR] one error found
[INFO] ------------------------------------------------------------------------
[INFO] Reactor Summary:
[INFO]
[INFO] Apache CarbonData :: Parent ........................ SUCCESS [  5.140 s]
[INFO] Apache CarbonData :: Common ........................ SUCCESS [ 10.114 s]
[INFO] Apache CarbonData :: Core .......................... SUCCESS [ 29.232 s]
[INFO] Apache CarbonData :: Processing .................... SUCCESS [  9.828 s]
[INFO] Apache CarbonData :: Hadoop ........................ SUCCESS [  5.719 s]
[INFO] Apache CarbonData :: Spark Common .................. FAILURE [01:10 min]
[INFO] Apache CarbonData :: Spark Common Test ............. SKIPPED
[INFO] Apache CarbonData :: Assembly ...................... SKIPPED
[INFO] Apache CarbonData :: Spark2 ........................ SKIPPED
[INFO] Apache CarbonData :: Spark2 Examples ............... SKIPPED
[INFO] ------------------------------------------------------------------------
[INFO] BUILD FAILURE
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 02:10 min
[INFO] Finished at: 2017-08-03T14:39:55+08:00
[INFO] Final Memory: 72M/786M
[INFO] ------------------------------------------------------------------------
[ERROR] Failed to execute goal org.scala-tools:maven-scala-plugin:2.15.2:compile (default) on project carbondata-spark-common: wrap: org.apache.commons.exec.ExecuteException: Process exited with an error: 1(Exit value: 1) -> [Help 1]
[ERROR]
[ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch.
[ERROR] Re-run Maven using the -X switch to enable full debug logging.
[ERROR]
[ERROR] For more information about the errors and possible solutions, please read the following articles:
[ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/MojoExecutionException
[ERROR]
[ERROR] After correcting the problems, you can resume the build with the command
[ERROR]   mvn  -rf :carbondata-spark-common

如果使用spark2.1.1编译的二进制包，放到spark2.2.0下，也会报错：

spark-1.6.2
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
case class InsertIntoTable(
    table: LogicalPlan,
    partition: Map[String, Option[String]],
    child: LogicalPlan,
    overwrite: Boolean,
    ifNotExists: Boolean)
  extends LogicalPlan {

  override def children: Seq[LogicalPlan] = child :: Nil
  override def output: Seq[Attribute] = Seq.empty

  assert(overwrite || !ifNotExists)
  override lazy val resolved: Boolean = childrenResolved && child.output.zip(table.output).forall {
    case (childAttr, tableAttr) =>
      DataType.equalsIgnoreCompatibleNullability(childAttr.dataType, tableAttr.dataType)
  }
}

spark-2.2.0
1
2
3
4
5
6
7
8
9
10
11
12
case class InsertIntoTable(
    table: LogicalPlan,
    partition: Map[String, Option[String]],
    query: LogicalPlan,
    overwrite: Boolean,
    ifPartitionNotExists: Boolean)
  extends LogicalPlan {
  // We don't want `table` in children as sometimes we don't want to transform it.
  override def children: Seq[LogicalPlan] = query :: Nil
  override def output: Seq[Attribute] = Seq.empty
  override lazy val resolved: Boolean = false
}

更改为i.query后，重新编译：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
[INFO] Apache CarbonData :: Assembly ...................... FAILURE [  2.180 s]
[INFO] Apache CarbonData :: Spark2 ........................ SKIPPED
[INFO] Apache CarbonData :: Spark2 Examples ............... SKIPPED
[INFO] ------------------------------------------------------------------------
[INFO] BUILD FAILURE
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 01:57 min
[INFO] Finished at: 2017-08-03T15:33:59+08:00
[INFO] Final Memory: 83M/728M
[INFO] ------------------------------------------------------------------------
[ERROR] Failed to execute goal on project carbondata-assembly: Could not resolve dependencies for project org.apache.carbondata:carbondata-assembly:pom:1.1.1: Could not find artifact org.apache.carbondata:carbondata-spark:jar:1.1.1 in central (http://repo1.maven.org/maven2) -> [Help 1]
[ERROR]
[ERROR] To see the full stack trace of the errors, re-run Maven with the -e switch.
[ERROR] Re-run Maven using the -X switch to enable full debug logging.
[ERROR]
[ERROR] For more information about the errors and possible solutions, please read the following articles:
[ERROR] [Help 1] http://cwiki.apache.org/confluence/display/MAVEN/DependencyResolutionException
[ERROR]
[ERROR] After correcting the problems, you can resume the build with the command
[ERROR]   mvn  -rf :carbondata-assembly

默认1.6版本的assembly无法下载1.1.1的pom,将默认版本改为(添加)2.2.0
1
2
3
4
5
6
7
8
9
10
11
12
13

      spark-2.2
        
            true
        
      
        
          org.apache.carbondata
          carbondata-spark2
          ${project.version}
        
      
    




SnappyData
2017-07-12T16:00:00.000Z
SnappyData®

SnappyData
开发模式
由于下载的snappydata已经带了spark，所以不需要使用–packges
1
2
3
4
5
6
7
$ cd snappydata-0.9-bin
$ bin/spark-shell --driver-memory=4g \
  --conf spark.snappydata.store.sys-disk-dir=quickstartdatadir \
  --conf spark.snappydata.store.log-file=quickstartdatadir/quickstart.log \
  --driver-java-options="-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:+CMSClassUnloadingEnabled -XX:MaxNewSize=1g"
Spark context Web UI available at http://192.168.6.52:4042
>

执行CRUD操作：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
val snappy = new org.apache.spark.sql.SnappySession(spark.sparkContext)
import snappy.implicits._
import org.apache.spark.sql.types._
import org.apache.spark.sql.Row

val ds = Seq((1,"a"), (2, "b"), (3, "c")).toDS()
val tableSchema = StructType(Array(StructField("CustKey", IntegerType, false),StructField("CustName", StringType, false)))

snappy.createTable(tableName = "colTable", provider = "column", schema = tableSchema, options = Map.empty[String, String], allowExisting = false)
snappy.createTable(tableName = "rowTable", provider = "row", schema = tableSchema, options = Map.empty[String, String], allowExisting = false)

ds.write.insertInto("colTable")
ds.write.insertInto("rowTable")

snappy.insert("colTable", Row(10, "f"))
snappy.insert("rowTable", Row(4, "d"))

snappy.table("colTable").count
snappy.table("colTable").orderBy("CustKey").show
snappy.table("rowTable").count
snappy.table("rowTable").orderBy("CUSTKEY").show

// update and delete on row table. current version did't support update and delete on column table.

// update rowTable set custname='d' where custkey=1
snappy.update(tableName = "rowTable", filterExpr = "CUSTKEY=1", newColumnValues = Row("d"), updateColumns = "CUSTNAME")
snappy.table("rowTable").orderBy("CUSTKEY").show
// delete rowTable where custkey=1
snappy.delete(tableName = "rowTable", filterExpr = "CUSTKEY=1")

打开http://192.168.6.52:4042/dashboard/，查看web-ui的dashboard页面

查看quickstartdir,索引采用GF(GemFire)
1
2
3
4
5
6
7
8
9
10
11
12
13
$ tree quickstartdatadir/
quickstartdatadir/
├── BACKUPGFXD-DEFAULT-DISKSTORE_1.crf
├── BACKUPGFXD-DEFAULT-DISKSTORE_1.drf
├── BACKUPGFXD-DEFAULT-DISKSTORE.if
├── datadictionary
│   ├── BACKUPGFXD-DD-DISKSTORE_1.crf
│   ├── BACKUPGFXD-DD-DISKSTORE_1.drf
│   ├── BACKUPGFXD-DD-DISKSTORE.if
│   └── DRLK_IFGFXD-DD-DISKSTORE.lk
├── DRLK_IFGFXD-DEFAULT-DISKSTORE.lk
├── gemfirexdtemp_1015622261.d
└── quickstart.log

简单的性能测试：
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
def benchmark(name: String, times: Int = 10, warmups: Int = 6)(f: => Unit) {
  for (i <- 1 to warmups) {
    f
  }
  val startTime = System.nanoTime
  for (i <- 1 to times) {
    f
  }
  val endTime = System.nanoTime
  println(s"Average time taken in $name for $times runs: " +
    (endTime - startTime).toDouble / (times * 1000000.0) + " millis")
}

val snappy = new org.apache.spark.sql.SnappySession(spark.sparkContext)
val testDF = snappy.range(100000000).selectExpr("id", "concat('sym', cast((id % 100) as varchar(10))) as sym")
snappy.sql("drop table if exists snappyTable")
snappy.sql("create table snappyTable (id bigint not null, sym varchar(10) not null) using column")
benchmark("Snappy insert perf", 1, 0) {testDF.write.insertInto("snappyTable") }
benchmark("Snappy perf") {snappy.sql("select sym, avg(id) from snappyTable group by sym").collect()}

单机模式
左图为本地模式，右图为伪分布式模式：分别启动locator（左下）、server（DataServer，右上）、
leader（左上），quickstartdir为右下（share-nothing store）.


伪分布式模式的三个组件都在本机启动，使用不同的文件夹。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
$ cd snappydata-0.9-bin
$ mkdir -p node-a/locator1 node-b/server1 node-c/lead1

$ bin/snappy locator start -dir=node-a/locator1

Starting SnappyData Locator using peer discovery on: 0.0.0.0[10334]
Starting Thrift server for SnappyData at address localhost/127.0.0.1[1527]
Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/node-a/locator1/snappylocator.log
SnappyData Locator pid: 27651 status: running

$ bin/snappy server start -dir=node-b/server1 -locators=dp0652:10334

Starting SnappyData Server using locators for peer discovery: dp0652:10334
Starting Thrift server for SnappyData at address localhost/127.0.0.1[1528]
Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/node-b/server1/snappyserver.log
SnappyData Server pid: 29595 status: running
  Distributed system now has 2 members.
  Other members: dp0652(27651:locator):32709

$ bin/snappy leader start -dir=node-c/lead1 -locators=dp0652:10334

Starting SnappyData Leader using locators for peer discovery: localhost:10334
Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/node-c/lead1/snappyleader.log
SnappyData Leader pid: 29860 status: running
  Distributed system now has 3 members.
  Other members: dp0652(27651:locator):32709, dp0652(29595:datastore):9553

如果要修改地址，可以用xx=xx的方式，
比如(修改locator的地址)[https://snappydatainc.github.io/snappydata/reference/configuration_parameters/start-locator/]
1
bin/snappy locator start -dir=node-a/locator1 -start-locator=192.168.6.52[1529]

关闭各个组件：
1
2
3
bin/snappy locator stop -dir=node-a/locator1
bin/snappy server stop -dir=node-b/server1
bin/snappy leader stop -dir=node-c/lead1

执行spark-shell，并指定snappydata的连接地址为localhost:1527.
1
2
3
4
5
bin/spark-shell --driver-memory=4g \
  --conf spark.snappydata.connection=localhost:1527 \
  --conf spark.snappydata.store.sys-disk-dir=quickstartdatadir2 \
  --conf spark.snappydata.store.log-file=quickstartdatadir2/quickstart.log \
  --driver-java-options="-XX:+UseConcMarkSweepGC -XX:+UseParNewGC -XX:+CMSClassUnloadingEnabled -XX:MaxNewSize=1g"

如果打开http://192.168.6.52:4042，有spark app的页面，但是没有dashboard的页面。
打开http://192.168.6.52:5050/dashboard/，可以查看snappydata的web ui。

5050类似于spark standalone的8082 web-ui，4040类似于spark app的ui。


一键启动三个组件
上面三个启动脚本可以用一个脚本执行,这种情况默认的文件夹在work下。
1
2
3
sbin/snappy-start-all.sh
sbin/snappy-stop-all.sh
sbin/snappy-status-all.sh

snappy-start-all.sh会在本地启动一个locator,一个server,一个leader.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
$ sbin/snappy-start-all.sh
Starting SnappyData Locator using peer discovery on: localhost[10334], other locators: localhost[10334]
Starting Thrift server for SnappyData at address localhost/127.0.0.1[1527]
Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/work/localhost-locator-1/snappylocator.log
SnappyData Locator pid: 7949 status: running

Starting SnappyData Server using locators for peer discovery: localhost[10334]
Starting Thrift server for SnappyData at address localhost/127.0.0.1[1528]
Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/work/localhost-server-1/snappyserver.log
SnappyData Server pid: 8176 status: running
  Distributed system now has 2 members.
  Other members: localhost(7949:locator):37846

Starting SnappyData Leader using locators for peer discovery: localhost[10334]
Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/work/localhost-lead-1/snappyleader.log
SnappyData Leader pid: 8488 status: running
  Distributed system now has 3 members.
  Other members: localhost(7949:locator):37846, dp0652(8176:datastore):24462

查看默认work下的目录

lead：类似于Spark的Driver，文件夹是spark-jobserver，放了作业和jar包
locator：
server：

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
$ tree work/
work/
├── localhost-lead-1
│   ├── BACKUPGFXD-DEFAULT-DISKSTORE.if
│   ├── DRLK_IFGFXD-DEFAULT-DISKSTORE.lk
│   ├── snappyleader.gfs
│   ├── snappyleader.log
│   ├── snappyleader.pid
│   ├── spark-jobserver
│   │   ├── filedao
│   │   │   └── data
│   │   │       ├── configs.data
│   │   │       ├── jars.data
│   │   │       └── jobs.data
│   │   └── upload
│   │       └── files.data
│   └── start_snappyleader.log
├── localhost-locator-1
│   ├── BACKUPGFXD-DEFAULT-DISKSTORE_1.crf
│   ├── BACKUPGFXD-DEFAULT-DISKSTORE_1.drf
│   ├── BACKUPGFXD-DEFAULT-DISKSTORE.if
│   ├── datadictionary
│   │   ├── BACKUPGFXD-DD-DISKSTORE_1.crf
│   │   ├── BACKUPGFXD-DD-DISKSTORE_1.drf
│   │   ├── BACKUPGFXD-DD-DISKSTORE.if
│   │   └── DRLK_IFGFXD-DD-DISKSTORE.lk
│   ├── DRLK_IFGFXD-DEFAULT-DISKSTORE.lk
│   ├── locator10334state.dat
│   ├── locator10334views.log
│   ├── snappylocator.gfs
│   ├── snappylocator.log
│   ├── snappylocator.pid
│   └── start_snappylocator.log
├── localhost-server-1
│   ├── BACKUPGFXD-DEFAULT-DISKSTORE_1.crf
│   ├── BACKUPGFXD-DEFAULT-DISKSTORE_1.drf
│   ├── BACKUPGFXD-DEFAULT-DISKSTORE.if
│   ├── datadictionary
│   │   ├── BACKUPGFXD-DD-DISKSTORE_1.crf
│   │   ├── BACKUPGFXD-DD-DISKSTORE_1.drf
│   │   ├── BACKUPGFXD-DD-DISKSTORE.if
│   │   └── DRLK_IFGFXD-DD-DISKSTORE.lk
│   ├── DRLK_IFGFXD-DEFAULT-DISKSTORE.lk
│   ├── snappyserver.gfs
│   ├── snappyserver.log
│   ├── snappyserver.pid
│   └── start_snappyserver.log
└── members.txt

client
先停止snappydata，然后修改远程机器conf下的servers, locators, leads.
将localhost改为主机地址:192.168.6.52，再重启snappydata。
注意：默认启动时，使用的是localhost，work下的文件夹页是localhost开头。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
[qihuang.zheng@dp0652 snappydata-0.9-bin]$ sbin/snappy-start-all.sh
192.168.6.52: Starting SnappyData Locator using peer discovery on: 192.168.6.52[10334], other locators: 192.168.6.52:10334
192.168.6.52: Starting Thrift server for SnappyData at address /192.168.6.52[1527]
192.168.6.52: Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/work/192.168.6.52-locator-1/snappylocator.log
192.168.6.52: SnappyData Locator pid: 45151 status: running
192.168.6.52: Starting SnappyData Server using locators for peer discovery: 192.168.6.52:10334
192.168.6.52: Starting Thrift server for SnappyData at address /192.168.6.52[1528]
192.168.6.52: Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/work/192.168.6.52-server-1/snappyserver.log
192.168.6.52: SnappyData Server pid: 45860 status: running
192.168.6.52:   Distributed system now has 2 members.
192.168.6.52:   Other members: dp0652(45151:locator):48205
192.168.6.52: Starting SnappyData Leader using locators for peer discovery: 192.168.6.52:10334
192.168.6.52: Logs generated in /home/qihuang.zheng/snappydata-0.9-bin/work/192.168.6.52-lead-1/snappyleader.log
192.168.6.52: SnappyData Leader pid: 46726 status: running
192.168.6.52:   Distributed system now has 3 members.
192.168.6.52:   Other members: dp0652(45860:datastore):8287, dp0652(45151:locator):48205

查看进程
1
2
3
45860 io.snappydata.tools.ServerLauncher server -critical-heap-percentage=90 -eviction-heap-percentage=81 locators=192.168.6.52:10334 log-file=snappyserver.log -client-bind-address=192.168.6.52
46726 io.snappydata.tools.LeaderLauncher server locators=192.168.6.52:10334 log-file=snappyleader.log -run-netserver=false
45151 io.snappydata.tools.LocatorLauncher server locators=192.168.6.52:10334 start-locator=192.168.6.52:10334 log-file=snappylocator.log -client-bind-address=192.168.6.52 -peer-discovery-address=192.168.6.52 jmx-manager=true

本机下载snappydata的二进制包，并启动snappy脚本，通过thrift/jdbc连接远程的snappydata cluster
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
➜  snappydata-0.9-bin bin/snappy
SnappyData 版本 0.9
snappy> connect client '192.168.6.52:1527';
九月 14, 2017 3:43:43 下午 java.util.logging.LogManager$RootLogger log
信息: Starting client on '10.57.4.219' with ID='7059|2017/09/14 15:43:43.185 CST'
Using CONNECTION0
snappy> show connections ;
CONNECTION0* -  jdbc:snappydata:thrift://192.168.6.52[1527]
* = 当前连接
snappy> show tables;
TABLE_SCHEM          |TABLE_NAME                    |TABLE_TYPE  |REMARKS
--------------------------------------------------------------------------------------
SYS                  |ASYNCEVENTLISTENERS           |SYSTEM TABLE|
SYS                  |GATEWAYRECEIVERS              |SYSTEM TABLE|
SYS                  |GATEWAYSENDERS                |SYSTEM TABLE|




Deep into Apache Gearpump
2017-06-24T16:00:00.000Z
Deep into Apache Gearpump

Prefix: I’ve heard Gearpump nearly one or two years ago, but never take a deep look inside. Until recently I’m almost done writing my chinese book about kafka internal implimentation, and decide to add some kafka relation opensouce system to my book’s appendix, such as spark streaming,storm,flink, and gearpump! So I finaly have a chance to deep into Gearpump.
Introduce
According to offical documentation: “Gearpump is a 100% Akka based platform. We model big data streaming within the Akka actor hierarchy”. Below It’s Gearpump Actor Hierarchy architecture. PS: If you don’t know Actor right now, It’s fine, just think that’s another RPC layer or message transformer.

Everything in the diagram is an actor; they fall into two categories, Cluster Actors and Application Actors.
Cluster Actors
Worker: Maps to a physical worker machine. It is responsible for managing resources and report metrics on that machine.
Master: Heart of the cluster, which manages workers, resources, and applications. The main function is delegated to three child actors, App Manager, Worker Manager, and Resource Scheduler.
Application Actors
AppMaster: Responsible to schedule the tasks to workers and manage the state of the application. Different applications have different AppMaster instances and are isolated.
Executor: Child of AppMaster, represents a JVM process. Its job is to manage the life cycle of tasks and recover the tasks in case of failure.
Task: Child of Executor, does the real job. Every task actor has a global unique address. One task actor can send data to any other task actors. This gives us great flexibility of how the computation DAG is distributed.

All actors in the graph are weaved together with actor supervision, and actor watching and every error is handled properly via supervisors. In a master, a risky job is isolated and delegated to child actors, so it’s more robust. In the application, an extra intermediate layer “Executor” is created so that we can do fine-grained and fast recovery in case of task failure. A master watches the lifecycle of AppMaster and worker to handle the failures, but the life cycle of Worker and AppMaster are not bound to a Master Actor by supervision, so that Master node can fail independently. Several Master Actors form an Akka cluster, the Master state is exchanged using the Gossip protocol in a conflict-free consistent way so that there is no single point of failure. With this hierarchy design, we are able to achieve high availability.

Next It’s a good entrance to knowing some basic concepts. It’s very necessary, you should first take a detail/serious look at if you want to know how gearpump works.
Master & Worker

Gearpump follow master slave architecture. Every cluster contains one or more Master node, and several worker nodes. Worker node is responsible to manage local resources on single machine, and Master node is responsible to manage global resources of the whole cluster.

If you have already know hadoop/spark such bigdata system, you should familiar those terminology. Here is the first comparison about gearpump and other system.



bigdata system
Master
Slave




Hadoop HDFS
NameNode
DataNode


Hadoop YARN
ReourceManager
NodeManager


Spark
ClusterManagement
Worker


Storm
Nimbus
Supervisor


Gearpump
Master
Worker



Application & AppMaster & Executor

Application is what we want to parallel and run on the cluster. There are different application types, for example MapReduce application and streaming application are different application types. Gearpump natively supports Streaming Application types, it also contains several templates to help user to create custom application types, like distributedShell.


In runtime, every application instance is represented by a single AppMaster and a list of Executors. AppMaster represents the command and controls center of the Application instance. It communicates with user, master, worker, and executor to get the job done. Each executor is a parallel unit for distributed application. Typically AppMaster and Executor will be started as JVM processes on worker nodes.

Now we have talking all important components in gearpump. Notice here we did’t mentioned Task as appeared in previous actor hierarchy. Also notice that Application is not an actor but an Java main class. Next take a look at Application Submission Flow in gearpump.

When user submits an application to Master, Master will first find an available worker to start the AppMaster. After AppMaster is started, AppMaster will request Master for more resources (worker) to start executors. The Executor now is only an empty container. After the executors are started, the AppMaster will then distribute real computation tasks to the executor and run them in parallel way.


To submit an application, a Gearpump client specifies a computation defined within a DAG and submits this to an active master. The SubmitApplication message is sent to the Master who then forwards this to an AppManager. 

 

The AppManager locates an available worker and launches an AppMaster in a sub-process JVM of the worker. The AppMaster will then negotiate with the Master for Resource allocation in order to distribute the DAG as defined within the Application. The allocated workers will then launch Executors (new JVMs).


Here I summary basic steps of submit application. notice the step number below are’t corresponding to the official pictures above.

User(client) submits an streaming application to gearpump Master;
Master forward SubmitApplication request to AppManager;
Master will first find an available worker to start the AppMaster;
AppMaster started(as Executor) on one of worker which master specified, until now, AppManager on Master can send  SubmitApplicationResult to client;
AppMaster send RequestResource to master, the purpose of this step is ask resources to run/launch Tasks which doing real job. After all, AppMaster is not responsible to running job, but instead let Tasks doing the job. Notice the lifecycle of both AppMaster and Tasks all resides in Executors. So If you want to start AppMaster or Task, you first must start Executor, then let Executor start AppMaster and Task;
Once AppMaster receive ResouceAllocated response, it’ll send LaunchExecutor to workers which Master pointing out where to go. For ex, the ResouceAllocated response says by Master to AppMaster: you can run executors on workers #1 and #2. Then AppMaster will send LaunchExecutor request to this two workers;
The Workers receive LaunchExecutor request from AppMaster, it then spawn an Executor as a java process. The reason why spawn a new process here is that the Executor and Worker thread should separate, which means the working process of Executor and Worker shouldn’t affect each other;
Just like Worker register to Master for reporting resources, the Executor also register to AppMaster by sending RegisterExecutor request. If someone regist to other-one, that means someone wants to be managed/controlled by other-one. for example, students regist to school, company regist to Mainland China, employee regist to company and so on;
The AppMaster receive RegisterExecutor request from Executor on Worker, it then ask Executor to start Task;
As AppMaster may getting more than one resouce at step6, and each Executor all register to AppMaster, so AppMaster can start multi task on this registerd Executor;
Each Task reside in Executor has DAG information defined within Application, so every Task can doing real job.

The workflow above was extraordinary like yarn application below. I take the picture and description from this excellent hortonworks blog.

A client program submits the application, including the necessary specifications to launch the application-specific ApplicationMaster itself.
The ResourceManager assumes the responsibility to negotiate a specified container in which to start the ApplicationMaster and then launches the ApplicationMaster.
The ApplicationMaster, on boot-up, registers with the ResourceManager – the registration allows the client program to query the ResourceManager for details, which allow it to  directly communicate with its own ApplicationMaster.
During normal operation the ApplicationMaster negotiates appropriate resource containers via the resource-request protocol.
On successful container allocations, the ApplicationMaster launches the container by providing the container launch specification to the NodeManager. The launch specification, typically, includes the necessary information to allow the container to communicate with the ApplicationMaster itself.
The application code executing within the container then provides necessary information (progress, status etc.) to its ApplicationMaster via an application-specific protocol.
During the application execution, the client that submitted the program communicates directly with the ApplicationMaster to get status, progress updates etc. via an application-specific protocol.
Once the application is complete, and all necessary work has been finished, the ApplicationMaster deregisters with the ResourceManager and shuts down, allowing its own container to be repurposed.


The picture above start two client application to yarn cluster, the ApplicationMaster reside on node2 of red one start three containers on node1 and node3, the ApplicationMaster reside on node1 of blue one only start one container. 
In yarn, ResouceManager take responsible to launch ApplicationManager on one of container, and launching Tasks on containers is the responsibility of ApplicationManager. But as you know, the ApplicationManager did’t know cluster resources, so he ask ResouceManager to give him the information of where to start tasks. Now we summary some conclusions:

ResouceManager launch ApplicationManager on one of NodeManager.
ApplicationManager launch Tasks on multi NodeManagers.
NodeManagers report resouce to ResouceManager.
Containers report task execution progress to ApplicationManager.  
ResouceManager manager ApplicationManager, and ApplicationManager manager tasks. If all tasks monitored by ApplicationManager was finished, then Application registered to ReousceManager was completed.

Step into gearpump, there are similiarity idea inspired from yarn. We could take yarn’s container as gearpump’s Executor, and yarn’s NodeManager as gearpump’s Worker. Because Containers reside in NodeManager at yarn world, and Executors reside in Worker at gearpump world.

We could also consider yarn’s ResouceManager as gearpump’s AppManager. Note that AppManager is different from AppMaster, which the former is at Master side, and the latter is at Worker side.
The Master in Gearpump have three main components: AppManager,Scheduler,Worker Manager. In reality, there are non WorkerManager class around gearpump source code,but Master indeed has a map which mapping Worker ActorRef to WorkerId. 
After oveview gearpump architecture, Let’s begin explore gearpump inside now.
Part-1: Application
First given a WordCount example, We sumbit an StreamApplication through ClientContext. Inside the application() method, we create three Processor and connect by ~ to construct a DAG graph.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
object WordCount extends AkkaApp {
  def application(config: ParseResult, system: ActorSystem): 
      StreamApplication = {
    implicit val actorSystem = system
    val split = new Split
    val sourceProcessor = DataSourceProcessor(split, 2, "Split")
    val sum = Processor[Sum](2)
    val computation = sourceProcessor ~ HashPartitioner ~> sum
    val app = StreamApplication("wordCount", Graph(computation))
    app
  }

  override def main(akkaConf: Config, args: Array[String]): Unit = {
    val context: ClientContext = ClientContext(akkaConf)
    val app = application(config, context.system)
    context.submit(app)
  }
}

StreamApplication is one of gearpump supported application type, there’re other applications such as MapReduce could run in gearpump. Each Application type has special appMaster class, StreamApplication’s appMaster is AppMaster. There’re some other ApplicationMaster actor implementation embeded: DistShellAppMaster,DistServiceAppMaster,and AppMaster.
Note Application is a scala App, but ApplicationMaster is an Actor. So what’s different between an App and and Actor? Well, App normaly has a main method doing what you want, but actor doing much more complicate thing.
1
2
3
4
5
6
7
8
9
10
11
12
trait Application {
  def name: String
  def userConfig(implicit system: ActorSystem): UserConfig
  def appMaster: Class[_ <: ApplicationMaster]
}
abstract class ApplicationMaster extends Actor

class StreamApplication() extends Application {
  override def appMaster: Class[_ <: ApplicationMaster] = classOf[AppMaster] 
}
class AppMaster(appContext: AppMasterContext, app: AppDescription) 
  extends ApplicationMaster {...}

ClientContext is a user facing util to submit/manage an application. The AppDescription describe application metadata such as appMaster name(here is AppMaster).
In the Akka world, Actor is the king. Client send SubmitApplication request to Master Actor, and expect get SubmitApplicationResult response from Master. Messages are sent to an Actor through one of the following methods.

! means “fire-and-forget”, e.g. send a message asynchronously and return immediately. Also known as tell.
? sends a message asynchronously and returns a Future representing a possible reply. Also known as ask. That’s the way client submit application doing here.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
class ClientContext(config: Config, sys: ActorSystem, _master: ActorRef) {
  def submit(app: Application, jar: String, executorNum: Int)= {
    val appName = ...
    val submissionConfig = ...
    val appDescription = AppDescription(appName,app.appMaster.getName,...)
    val appJar = Option(jar).map(loadFile)
    submitApplication(SubmitApplication(appDescription, appJar))
  }
  private def submitApplication(submitApplication: SubmitApplication)={
    val result = ActorUtil.askActor[SubmitApplicationResult](
        master, submitApplication, masterClientTimeout)
    val application = result.appId match {
      case Success(appId) =>
        Console.println(s"Submit app succeed. The app id is $appId")
        new RunningApplication(appId, master, masterClientTimeout)
      case Failure(ex) => throw ex
    }
    application
  }
}

Now Let’s see how Master deal with SubmitApplication. Before this, you should know that client only submit application when Master has started. Also note that when start Master, we also start some Workers to form a gearpump cluster. Only then the cluster is stabled, client then can submit application. We can see that when startup Master, in preStart() method, Master created an AppManager and Scheduler by invoking context.actorOf(...). That means before client submit application, AppManager and Scheduler already exists in Master, and they both preparing to work.
We’re also seeing a receiveHandler() method return Receive object, and was invoked by waitForNextWorkerId() method. What context.become() and orElse meaning? well, normaly you define one receive method, but here you have seen there’re multi receive method, so become() method of ActorContext is used for switchover between different receive method.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
private[cluster] class Master extends Actor with Stash {
  private val kvService = context.actorOf(Props(new InMemoryKVService()))
  private var appManager: ActorRef = null
  private var scheduler: ActorRef = null
  private var workers = new immutable.HashMap[ActorRef, WorkerId]

  // when start up Master, send GetKV to kvService immediatery
  kvService ! GetKV(MASTER_GROUP, WORKER_ID) 
  context.become(waitForNextWorkerId) // wait for getting result 

  def waitForNextWorkerId: Receive = {
    case GetKVSuccess(_, result) => // receive GetKV response
      context.become(receiveHandler) // switchover to receiveHandler
      unstashAll()
    case msg => stash() // why do we stash here?
  }

  def receiveHandler: Receive = workerMsgHandler orElse
    appMasterMsgHandler orElse // AppMaster to Master
    onMasterListChange orElse // Master change
    clientMsgHandler orElse // Client to Master. you'll see submit app here
    kvServiceMsgHandler orElse ActorUtil.defaultMsgHandler(self)

  override def preStart(): Unit = {
    appManager = context.actorOf(
        Props(new AppManager(kvService, AppMasterLauncher)),
        classOf[AppManager].getSimpleName)
    scheduler = context.actorOf(Props(schedulerClass))
    context.system.eventStream.subscribe(self,classOf[DisassociatedEvent])
  }
}

Now you have overview the main function in Master, lets see how clientMsgHandler receive method response to client’s submit application request. I have omit other unimportance request only left submit and restart application. The Master delegate/forward reqeust to AppManager.
1
2
3
4
5
def clientMsgHandler: Receive = {
  case app: SubmitApplication => appManager.forward(app)
  case app: RestartApplication => appManager.forward(app)
  case register: RegisterAppResultListener => appManager forward register
}

AppManager is dedicated child of Master to manager all applications. The AppManager behaviour similar as Master.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
private[cluster] class AppManager(
    kvService: ActorRef, launcher: AppMasterLauncherFactory) 
    extends Actor with Stash with TimeOutScheduler {

  kvService ! GetKV(MASTER_GROUP, MASTER_STATE)
  context.become(waitForMasterState)

  def waitForMasterState: Receive = {
    case GetKVSuccess(_, result) =>
      context.become(receiveHandler)
      unstashAll()
    case msg => stash()
  }
  def receiveHandler: Receive = {
    clientMsgHandler orElse // Client to AppManager
      appMasterMessage orElse // AppMaster to AppManager
      selfMsgHandler orElse
      workerMessage orElse // Worker to AppManager
      appDataStoreService orElse terminationWatch
  }

  def clientMsgHandler: Receive = {
    case SubmitApplication(app, jar, username) =>
      val client = sender()
      context.actorOf(launcher.props(
        nextAppId, -1, app, jar, username, context.parent, client))
      // ommit something like save application metadata to kv store
  }
}

Master create AppManager by invoke context.actorOf(Props(...)), here AppManager create AppMasterLauncher Actor by context.actorOf(launcher.props(..)). AppMasterLauncher is a child Actor of AppManager, it is responsible to launch the AppMaster on the cluster. 
When AppManager receive SubmitApplication from client, it create AppMasterLauncher, and send RequestResource to master then wait for ResourceAllocation. 
When AppMasterLauncher receive ResourceAllocated response from master, it will Try to launch a executor for AppMaster on worker specified by ResourceAllocated response.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
class AppMasterLauncher(...,master: ActorRef, client: ActorRef) extends Actor {
  LOG.info(s"Ask Master resource to start AppMaster $appId...")
  master ! RequestResource(appId, ResourceRequest(Resource(1))
  def receive: Receive = waitForResourceAllocation

  def waitForResourceAllocation: Receive = {
    case ResourceAllocated(allocations) =>
      val ResourceAllocation(resource, worker, workerId) = allocations(0)
      val workerInfo = WorkerInfo(workerId, worker)
      val appMasterContext = AppMasterContext(...)
      // Try to launch a executor for AppMaster on worker for app
      val name = ActorUtil.actorNameForExecutor(appId, executorId)
      val selfPath = ActorUtil.getFullPath(context.system, self.path)

      val executorJVM = ExecutorJVMConfig(
        classOf[ActorSystemBooter].getName, Array(name, selfPath), jar,
        username, appMasterAkkaConfig)

      worker ! LaunchExecutor(appId, executorId, resource, executorJVM)
      context.become(waitForActorSystemToStart(worker, appMasterContext, resource))
  }
}

Let’s see how Worker deal with LaunchExecutor reqeust from AppMasterLauncher.
1
2
3
4
5
6
7
8
9
private[cluster] class Worker(masterProxy: ActorRef) extends Actor{
  def service: Receive = appMasterMsgHandler orElse clientMessageHandler 
  def appMasterMsgHandler: Receive = {
    case launch: LaunchExecutor =>
      val executor = context.actorOf(Props(classOf[ExecutorWatcher], 
        launch, masterInfo, ioPool, jarStoreClient, executorProcLauncher))
      context.watch(executor)
  }
}

The ExecutorWatcher create a java process and the main class ActorSystemBooter is coming from ExecutorJVMConfig which defined in AppMasterLauncher.
1
2
3
4
5
class ExecutorWatcher(launch: LaunchExecutor, 
    procLauncher: ExecutorProcessLauncher) extends Actor {
  val ctx = launch.executorJvmConfig
  procLauncher.createProcess(ctx.mainClass, ctx.arguments)
}

ExecutorWatcher is an Actor, ActorSystemBooter is an pure scala app. But inside ActorSystemBooter’s main method, it create another actor: Daemon.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
class ActorSystemBooter(config: Config) {
  def boot(name: String, reportBackActor: String): ActorSystem = {
    system.actorOf(Props(classOf[Daemon], name, reportBackActor), "daemon")
  }
}
object ActorSystemBooter {
  def apply(config: Config): ActorSystemBooter = new ActorSystemBooter(config)

  def main(args: Array[String]) {
    val name = args(0) // The parameter was passed when construnct 
    val reportBack = args(1) // ExecutorJVMConfig at AppMasterLauncher
    apply(config).boot(name, reportBack)
  } 
  class Daemon(val name: String, reportBack: String) extends Actor {
    val reportBackActor = context.actorSelection(reportBack)
    reportBackActor ! RegisterActorSystem(
        ActorUtil.getSystemAddress(context.system).toString)
  }
}

Those many Actor headache me, and the invoke chain nest and nest again. So I draw a picture to help me understand what happend all the way around. To make my picture looks vividly, I use gear to indicate an Actor, you can see except ActorSystemBooter, all others are Actor. The underline character means request. Let me outlines some import steps.

AppManager create AppMasterLauncher which then send RequestResource to Master
After AppMasterLauncher receive ResourceAllocated, it send LauncherExecutor request to Worker
Worker create an ExecutorWatcher and create a java Daemon process which send RegisterActorSystem request back to Master


Now the AppMasterLauncher is going to deal with RegisterActorSystem request. If you backward to check AppMasterLauncher, you can find that: after AppMasterLauncher send LaunchExecutor, it is waiting for ActorSystem to start.
After Daemon actor in Worker send RegisterActorSystem request to AppMasterLauncher, the AppMasterLauncher finally have chance to receive RegisterActorSystem event, first it send ActorSystemRegistered request to Daemon, and then send another request CreateActor to Daemon again.

Daemon on Worker send RegisterActorSystem request to AppMasterLauncher
AppMasterLauncher on Master send ActorSystemRegistered to Daemon on Worker
AppMasterLauncher on Master send CreateActor to Daemon on Worker

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
class AppMasterLauncher(...,master: ActorRef, client: ActorRef) extends Actor {
  def waitForResourceAllocation: Receive = {
    worker ! LaunchExecutor(appId, executorId, resource, executorJVM)
    context.become(
        waitForActorSystemToStart(worker, appMasterContext, resource))
  }

  def waitForActorSystemToStart(worker: ActorRef, appContext: AppMasterContext,
      resource: Resource): Receive = {
    case RegisterActorSystem(systemPath) =>
      sender ! ActorSystemRegistered(worker)
      // There're many masters construct Master HA in case of fault
      val masterAddress = systemConfig.getStringList(GEARPUMP_CLUSTER_MASTERS)
        .asScala.map(HostPort(_)).map(ActorUtil.getMasterActorPath)

      sender ! CreateActor(
        AppMasterRuntimeEnvironment.props(masterAddress, app, appContext))
      context.become(waitForAppMasterToStart(worker, appMasterTimeout))
  }

  def waitForAppMasterToStart(worker: ActorRef, cancel: Cancellable)= {
    case ActorCreated(appMaster, _) =>
      cancel.cancel()
      sender ! BindLifeCycle(appMaster)
      LOG.info(s"AppMaster is created, mission complete...")
      replyToClient(SubmitApplicationResult(Success(appId)))
      context.stop(self)
  }
}

Seems AppMasterLauncher and Daemon are playing ping-pong, and they both back and forth many times. Finally after Daemon create another Actor which we’ll talk about later, it then send ActorCreated back to AppMasterLauncher. 

Daemon on Worker send ActorCreated reqeust to AppMasterLauncher on Master
AppMasterLauncher send BindLifeCycle request back to Daemon on Worker
and then send SubmitApplicationResult back to Client
Daemon on Worker receive BindLifeCycle request from AppMasterLauncher and watch the actor. this actor being watched by Daemon is AppMaster.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
class Daemon(val name: String, reportBack: String) extends Actor {
  def waitForRegisterResult: Receive = {
    case ActorSystemRegistered(parent) =>
      timeout.cancel()
      context.watch(parent)
      context.become(waitCommand)
  }
  def waitCommand: Receive = {
    case BindLifeCycle(actor) =>
      LOG.info(s"ActorSystem $name Binding life cycle with actor: $actor")
      context.watch(actor)
    case create@CreateActor(props: Props, name: String) =>
      val actor = Try(context.actorOf(props, name)) // create another actor
      actor match {
        case Success(actor) => sender ! ActorCreated(actor, name)
        case Failure(e) => sender ! CreateActorFailed(props.clazz.getName, e)
      }
    case PoisonPill =>
      context.stop(self)
    case Terminated(actor) =>
      LOG.info(s"System $name Watched actor is terminated $actor")
      context.stop(self)
  }
}


Daemon create an Actor which defined in RegisterActorSystem on AppMasterLauncher. This Actor is AppMasterRuntimeEnvironment, it’ll create AppMaster. 
We know that create Actor can use context.actorOf(props) method, here the props is passed from AppMasterLauncher to Daemon, but not created on Daemon side. Why do we doing this way? Because only AppMasterLauncher know how to create an AppMaster. Passing the props inside CreateActor is just like passing other request. Now the mainpoint focus transfer to AppMasterRuntimeEnvironment.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
object AppMasterRuntimeEnvironment {
  def props(masters: Iterable[ActorPath], 
      app: AppDescription, appContextInput: AppMasterContext
      ): Props = {
    val master = (appId: AppId, masterProxy: MasterActorRef) =>
      MasterWithExecutorSystemProvider.props(appId, masterProxy)

    val appMaster = (appContext: AppMasterContext, app: AppDescription) =>
      LazyStartAppMaster.props(appContext, app)

    val masterConnectionKeeper = (master: MasterActorRef, registerAppMaster:
      RegisterAppMaster, listener: ListenerActorRef) => Props(new MasterConnectionKeeper(
        registerAppMaster, master, masterStatusListener = listener))

    Props(new AppMasterRuntimeEnvironment(appContextInput, app, masters,
      master, appMaster, masterConnectionKeeper))
  }
}

AppMasterRuntimeEnvironment will create three Actor once it’s created. It serves as runtime environment for AppMaster. When starting an AppMaster, we need to setup the connection to master(an MasterProxy which substitute to Master), and prepare other environments.
The MasterProxy also extend the function of Master, by providing a scheduler service for Executor System. AppMaster can ask Master for executor system directly. details like requesting resource, contacting worker to start a process, and then starting an executor system is hidden from AppMaster.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
private[appmaster] class AppMasterRuntimeEnvironment(
    appContextInput: AppMasterContext,
    app: AppDescription,
    masters: Iterable[ActorPath],
    masterFactory: (AppId, MasterActorRef) => Props,
    appMasterFactory: (AppMasterContext, AppDescription) => Props,
    masterConnectionKeeperFactory: (MasterActorRef, RegisterAppMaster, ListenerActorRef) => Props) extends Actor {

  private val master = context.actorOf(
    masterFactory(appId, context.actorOf(Props(new MasterProxy(masters, 30.seconds)))))
  private val appContext = appContextInput.copy(masterProxy = master)

  // Create appMaster proxy to receive command and forward to appmaster
  private val appMaster = context.actorOf(appMasterFactory(appContext, app))
  context.watch(appMaster)

  private val registerAppMaster = RegisterAppMaster(
    appId, appMaster, appContext.workerInfo)
  private val masterConnectionKeeper = context.actorOf(
    masterConnectionKeeperFactory(master, registerAppMaster, self))
  context.watch(masterConnectionKeeper)

  def receive: Receive = {
    case MasterConnected =>
      LOG.info(s"Master is connected, start AppMaster $appId...")
      appMaster ! StartAppMaster
    case MasterStopped =>
      LOG.error(s"Master is stopped, stop AppMaster $appId...")
      context.stop(self)
    case Terminated(actor) => actor match {
      case `appMaster` =>
        LOG.error(s"AppMaster $appId is stopped, shutdown myself")
        context.stop(self)
      case `masterConnectionKeeper` =>
        LOG.error(s"Master connection keeper is stopped, appId: $appId, shutdown myself")
        context.stop(self)
      case _ => // Skip
    }
  }

The workflow from creating AppMasterRuntimeEnvironment to create AppMaster is trigged through MasterConnectionKeeper by sending RegisterAppMaster request to AppMasterLauncher. Finally when AppMasterRuntimeEnvironment receive MasterConnected from MasterConnectionKeeper, it send StartAppMaster to AppMaster. happy now! Take long long way bring up to AppMaster.

Note AppMasterRuntimeEnvironment did not send StartAppMaster directory to AppMaster but to LazyStartAppMaster. and Every message send to LazyStartAppMaster will forward to AppMaster. Why do we need a Lazy AppMaster? If you take look at LazyStartAppMaster, you’ll notice that LazyStartAppMaster is not really an AppMaster but it’s responsible to create AppMaster only when it receive StartAppMaster request from AppMasterRuntimeEnvironment. So you wont’t find StartAppMaster on AppMaster.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
class LazyStartAppMaster(appId: Int, appMasterProps: Props) 
    extends Actor with Stash {
  def receive: Receive = null
  context.become(startAppMaster)

  def startAppMaster: Receive = {
    case StartAppMaster =>
      val appMaster = context.actorOf(appMasterProps, "appmaster")
      context.watch(appMaster)
      context.become(terminationWatch(appMaster) orElse 
        appMasterService(appMaster))
      unstashAll()
    case _ => stash()
 }
  def appMasterService(appMaster: ActorRef): Receive = {
    case msg => appMaster forward msg
  }
}
private[appmaster] object LazyStartAppMaster {
  def props(appContext: AppMasterContext, app: AppDescription): Props = {
    // the class name of app.appMaster is AppMaster 
    // which will create when receive StartAppMaster
    val appMasterProps = Props(Class.forName(app.appMaster), appContext, app)
    Props(new LazyStartAppMaster(appContext.appId, appMasterProps))
  }
}

The AppMaster is the head of a streaming application. It contains:

ExecutorManager to manage all executors.
TaskManager to manage all tasks,
ClockService to track the global clock for this streaming application.
Scheduler to decide which a task should be scheduled to.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
class AppMaster(appContext: AppMasterContext, app: AppDescription) 
    extends ApplicationMaster {
  private val dagManager = context.actorOf(Props(
    new DagManager(appContext.appId, userConfig, store,
    Some(getUpdatedDAG))))
  private var taskManager: Option[ActorRef] = None
  private var clockService: Option[ActorRef] = None

  private val executorManager: ActorRef =
    context.actorOf(ExecutorManager.props(userConfig, appContext, app.clusterConfig, app.name),
      ActorPathUtil.executorManagerActorName)

  for (dag <- getDAG) {
    clockService = Some(context.actorOf(Props(new ClockService(dag, self, store))))
    val jarScheduler = new JarScheduler(appId, app.name, systemConfig, context)
    taskManager = Some(context.actorOf(Props(new TaskManager(appContext.appId, dagManager,
      jarScheduler, executorManager, clockService.get, self, app.name))))
  }

  override def receive: Receive = {
    taskMessageHandler orElse
      executorMessageHandler orElse
      ready orElse
      recover orElse
      appMasterService orElse
      ActorUtil.defaultMsgHandler(self)
  }
}

At now I lost my line of argument, as there’re no request send trigger inside AppMaster, so what’s the entry of AppMaster?
Keep in mind, once create AppMaster, it will create ExecutorManager and TaskManager. Althrough we did’t see request send directory from AppMaster, we could find if there’re something inside ExecutorManager or TaskManager.
Suddenly comeup so many Managers make me unprepared. But unlike AppManager reside in Master, ExecutorManager and TaskManager both reside in Worker! 

Processor, OP, Task
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
class Planner {
  /**
   * Converts Dag of Op to Dag of TaskDescription. TaskDescription is part of the low level Graph API.
   */
  def plan(dag: Graph[Op, OpEdge])
    (implicit system: ActorSystem): Graph[Processor[_ <: Task], _ <: Partitioner] = {

    val graph = optimize(dag)
    graph.mapEdge { (node1, edge, node2) =>
      edge match {
        case Shuffle =>
          node2 match {
            case op: GroupByOp[_, _] =>
              new GroupByPartitioner(op.groupBy.groupByFn)
            case _ => new HashPartitioner
          }
        case Direct =>
          new CoLocationPartitioner
      }
    }.mapVertex(_.getProcessor)
  }

  private def optimize(dag: Graph[Op, OpEdge])
    (implicit system: ActorSystem): Graph[Op, OpEdge] = {
    val graph = dag.copy
    val nodes = graph.topologicalOrderWithCirclesIterator.toList.reverse
    for (node <- nodes) {
      val outGoingEdges = graph.outgoingEdgesOf(node)
      for (edge <- outGoingEdges) {
        merge(graph, edge._1, edge._3)
      }
    }
    graph
  }

  private def merge(graph: Graph[Op, OpEdge], node1: Op, node2: Op)
    (implicit system: ActorSystem): Unit = {
    if (graph.outDegreeOf(node1) == 1 &&
      graph.inDegreeOf(node2) == 1 &&
      // For processor node, we don't allow it to merge with downstream operators
      !node1.isInstanceOf[ProcessorOp[_ <: Task]] &&
      !node2.isInstanceOf[ProcessorOp[_ <: Task]]) {
      val (_, edge, _) = graph.outgoingEdgesOf(node1).head
      if (edge == Direct) {
        val chainedOp = node1.chain(node2)
        graph.addVertex(chainedOp)
        for (incomingEdge <- graph.incomingEdgesOf(node1)) {
          graph.addEdge(incomingEdge._1, incomingEdge._2, chainedOp)
        }

        for (outgoingEdge <- graph.outgoingEdgesOf(node2)) {
          graph.addEdge(chainedOp, outgoingEdge._2, outgoingEdge._3)
        }

        // Remove the old vertex
        graph.removeVertex(node1)
        graph.removeVertex(node2)
      }
    }
  }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
case class DataSourceOp(
    dataSource: DataSource,
    parallelism: Int = 1,
    userConfig: UserConfig = UserConfig.empty,
    description: String = "source")
  extends Op {

  override def chain(other: Op)(implicit system: ActorSystem): Op = {
    DataSourceOp(dataSource, parallelism,
      userConfig.withValue(Constants.GEARPUMP_STREAMING_OPERATOR, other.fn),
      description)
  }

  override def getProcessor(implicit system: ActorSystem): Processor[_ <: Task] = {
    Processor[DataSourceTask[Any, Any]](parallelism, description,
      userConfig.withValue(GEARPUMP_STREAMING_SOURCE, dataSource))
  }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
class TaskWrapper(
    val taskId: TaskId, val taskClass: Class[_ <: Task], context: TaskContextData,
    userConf: UserConfig) extends TaskContext with TaskInterface {

  private var task: Option[Task] = None

  override def onStart(startTime: Instant): Unit = {
    val constructor = taskClass.getConstructor(
        classOf[TaskContext], classOf[UserConfig])
    task = Some(constructor.newInstance(this, userConf))
    task.foreach(_.onStart(startTime))
  }
}

Utility that helps user to create a DAG starting with [[DataSourceTask]] user should pass in a [[DataSource]]
Here is an example to build a DAG that reads from Kafka source followed by word count
1
2
3
4
5
val source = new KafkaSource()
val sourceProcessor =  DataSourceProcessor(source, 1)
val split = Processor[Split](1)
val sum = Processor[Sum](1)
val dag = sourceProcessor ~> split ~> sum

1
2
3
4
5
6
7
8
9
10
11
object DataSourceProcessor {
  def apply(
      dataSource: DataSource,
      parallelism: Int = 1,
      description: String = "",
      taskConf: UserConfig = UserConfig.empty)(implicit system: ActorSystem)
    : Processor[DataSourceTask[Any, Any]] = {
    Processor[DataSourceTask[Any, Any]](parallelism, description,
      taskConf.withValue[DataSource](Constants.GEARPUMP_STREAMING_SOURCE, dataSource))
  }
}

Default Task container for [[org.apache.gearpump.streaming.source.DataSource]] that reads from DataSource in batch
DataSourceTask calls:

DataSource.open() in onStart and pass in [[org.apache.gearpump.streaming.task.TaskContext]]

and application start time

DataSource.read() in each onNext, which reads a batch of messages
DataSource.close() in onStop

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
class DataSourceTask[IN, OUT] private[source](
    context: TaskContext,
    conf: UserConfig,
    source: DataSource,
    transform: Transform[IN, OUT])
  extends Task(context, conf) {

  def this(context: TaskContext, conf: UserConfig) = {
    this(context, conf,
      conf.getValue[DataSource](GEARPUMP_STREAMING_SOURCE)(context.system).get,
      new Transform[IN, OUT](context,
        conf.getValue[FunctionRunner[IN, OUT]](GEARPUMP_STREAMING_OPERATOR)(context.system))
    )
  }
}




Apache Kafka JIRA
2017-06-19T16:00:00.000Z
Apache Kafka JIRA

https://issues.apache.org/jira/browse/KAFKA
2944
https://github.com/apache/kafka/pull/723
最后来分析KafkaBasedLog的readToLogEnd()方法如何读取到日志的最末尾，具体步骤如下。

定位到分区的最末尾，通过消费者的seekToEnd()只是声明了重置策略为LATEST，并没有真正定位。客户端还需要调用消费者的轮询方法，才能保证发送拉取请求，并更新消费者的当前位置；
比较消费者的当前位置（endOffset）与上一次还没定位到最末尾时的位置（startOffset），如果前者大于后者，客户端需要调用seek()方法定位到旧的位置（startOffset）；
如果步骤(2)回退到旧的位置，需要调用轮询方法消费消息，直到当前位置是分区的最末尾位置。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
public class KafkaBasedLog<K, V> { 
  private void readToLogEnd() { // 读取到日志的最末尾
    // 1. 定位到分区的最末尾（logEndOffset）
    Set assignment = consumer.assignment();
    Map offsets = new HashMap<>();
    for (TopicPartition tp : assignment) {
      long offset = consumer.position(tp); // 获取当前的消费位置
      offsets.put(tp, offset); // 暂存起来
      consumer.seekToEnd(singleton(tp)); // 定位到最末尾的位置
    }
    // 2. 回退到开始位置
    Map endOffsets = new HashMap<>();
    try {
      poll(0);
    } finally {
      for (TopicPartition tp : assignment) {
        long startOffset = offsets.get(tp); // 旧的消费位置
        long endOffset = consumer.position(tp); // 当前的偏移量等于最末尾的位置
        if (endOffset > startOffset) { 
          endOffsets.put(tp, endOffset); 
          consumer.seek(tp, startOffset);
        }
      }
    }
    // 3. 开始读取，直到读取到分区的最末尾位置
    while (!endOffsets.isEmpty()) {
      poll(Integer.MAX_VALUE);
      Iterator it = endOffsets.entrySet().iterator();
      while (it.hasNext()) {
        Map.Entry entry = it.next();
        if (consumer.position(entry.getKey()) < entry.getValue()) break;
        else it.remove();
      }
    }
  }
}

客户端调用readToLogEnd()之前，如果还有新的消息没有消费，当调用readToLogEnd()方法时，可以保证客户端会完全消费新写入的消息。如图8-31（左图）所示，偏移量从3到6是新写入的消息（比如一个连接器配置、两个任务配置、一个提交日志的配置，总共四条消息）。客户端为了读取到分区最近的位置，先定位到最近的位置（7）。注意这时不能立即调用轮询方法，因为如果客户端在最近的位置，调用轮询不会有任何的新消息。客户端应该再定位到上次消费的位置（3），然后才能调用轮询方法，直到消费者的当前位置大于等于最近位置时，就说明客户端读取到了日志的最末尾。右图中，假设客户端已经消费到了日志的最末尾，那么调用readToLogEnd()方法会立即返回。

图8-31 读取到分区最末尾的位置

注意：上面的readToLogEnd()方法用到了Kafka新消费者的三个方法。（1）：postion()方法返回消费者当前的位置，即消费进度，这个值比客户端真正消费过的位置要大1。比如客户端消费了两条消息，postion()方法的返回值就等于3。（2）：seekToEnd(tp)方法定位到日志的最末尾，同样，这个值也是实际的偏移量加上1（即nextOffset）。比如分区实际只有六条消息，最末尾的偏移量等于7。（3）：seekTo(tp,offset)方法定位到日志的指定位置。客户端定位到指定位置后，下一步一般是要调用轮询方法，并从这个位置拉取消息。所以如果客户端已经消费了偏移量等于1和2的两条消息，定位的位置是3，表示要拉取第三条的消息。不能定位到2，那样的话，从位置2开始拉取消息，就重复拉取了第二条消息。

2500/2076/KIP-17


Spark Metrics
2017-04-30T16:00:00.000Z
Spark Metrics


http://www.hammerlab.org/2015/02/27/monitoring-spark-with-graphite-and-grafana/

命令行添加监控
直接添加到命令行后
1
--files=/yourPath/metrics.properties --conf spark.metrics.conf=metrics.properties


The –files flag will cause /path/to/metrics.properties to be sent to every executor,
and spark.metrics.conf=metrics.properties will tell all executors to load that file
when initializing their respective MetricsSystems.

或者用conf的形式
1
2
--conf spark.metrics.conf.*.sink.graphite.class=org.apache.spark.metrics.sink.GraphiteSink \
--conf spark.metrics.conf.*.sink.graphite.host=...

Spark Metrics
1
2
3
4
5
6
7
*.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink
*.sink.console.period=10
*.sink.console.unit=seconds
*.sink.csv.class=org.apache.spark.metrics.sink.CsvSink
*.sink.csv.period=1
*.sink.csv.unit=minutes
*.sink.csv.directory=/tmp/

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
➜  spark-2.0.1-bin-hadoop2.7 bin/spark-shell
Spark context Web UI available at http://10.57.2.5:4040
Spark context available as 'sc' (master = local[*], app id = local-1495078254084).
Spark session available as 'spark'.
scala> 17-5-18 11:31:05 ===============================================================

-- Gauges ----------------------------------------------------------------------
local-1495078254084.driver.BlockManager.disk.diskSpaceUsed_MB value = 0
local-1495078254084.driver.BlockManager.memory.maxMem_MB value = 366
local-1495078254084.driver.BlockManager.memory.memUsed_MB value = 0
local-1495078254084.driver.BlockManager.memory.remainingMem_MB value = 366
local-1495078254084.driver.DAGScheduler.job.activeJobs value = 0
local-1495078254084.driver.DAGScheduler.job.allJobs value = 0
local-1495078254084.driver.DAGScheduler.stage.failedStages value = 0
local-1495078254084.driver.DAGScheduler.stage.runningStages value = 0
local-1495078254084.driver.DAGScheduler.stage.waitingStages value = 0

-- Histograms ------------------------------------------------------------------
local-1495078254084.driver.CodeGenerator.compilationTime
             count = 0
               min = 0
               max = 0
              mean = 0.00
            stddev = 0.00
            median = 0.00
              75% <= 0.00
              95% <= 0.00
              98% <= 0.00
              99% <= 0.00
            99.9% <= 0.00
local-1495078254084.driver.CodeGenerator.generatedClassSize
             count = 0
               min = 0
               max = 0
              mean = 0.00
            stddev = 0.00
            median = 0.00
              75% <= 0.00
              95% <= 0.00
              98% <= 0.00
              99% <= 0.00
            99.9% <= 0.00
local-1495078254084.driver.CodeGenerator.generatedMethodSize
             count = 0
               min = 0
               max = 0
              mean = 0.00
            stddev = 0.00
            median = 0.00
              75% <= 0.00
              95% <= 0.00
              98% <= 0.00
              99% <= 0.00
            99.9% <= 0.00
local-1495078254084.driver.CodeGenerator.sourceCodeSize
             count = 0
               min = 0
               max = 0
              mean = 0.00
            stddev = 0.00
            median = 0.00
              75% <= 0.00
              95% <= 0.00
              98% <= 0.00
              99% <= 0.00
            99.9% <= 0.00

-- Timers ----------------------------------------------------------------------
local-1495078254084.driver.DAGScheduler.messageProcessingTime
             count = 0
         mean rate = 0.00 calls/second
     1-minute rate = 0.00 calls/second
     5-minute rate = 0.00 calls/second
    15-minute rate = 0.00 calls/second
               min = 0.00 milliseconds
               max = 0.00 milliseconds
              mean = 0.00 milliseconds
            stddev = 0.00 milliseconds
            median = 0.00 milliseconds
              75% <= 0.00 milliseconds
              95% <= 0.00 milliseconds
              98% <= 0.00 milliseconds
              99% <= 0.00 milliseconds
            99.9% <= 0.00 milliseconds


17-5-18 11:31:15 ===============================================================

scala> sc.parallelize(List(1,2,3,4,5)).count
res1: Long = 5

scala> 17-5-18 11:33:15 ===============================================================

-- Timers ----------------------------------------------------------------------
local-1495078254084.driver.DAGScheduler.messageProcessingTime
             count = 10
         mean rate = 0.07 calls/second
     1-minute rate = 0.16 calls/second
     5-minute rate = 0.03 calls/second
    15-minute rate = 0.01 calls/second
               min = 0.03 milliseconds
               max = 1207.28 milliseconds
              mean = 125.02 milliseconds
            stddev = 358.42 milliseconds
            median = 0.32 milliseconds
              75% <= 16.58 milliseconds
              95% <= 1207.28 milliseconds
              98% <= 1207.28 milliseconds
              99% <= 1207.28 milliseconds
            99.9% <= 1207.28 milliseconds

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
➜  ~ ll /tmp/ -rth
-rw-r--r--   1 zhengqh  wheel    99B  5 18 11:36 local-1495078254084.driver.DAGScheduler.stage.waitingStages.csv
-rw-r--r--   1 zhengqh  wheel    99B  5 18 11:36 local-1495078254084.driver.DAGScheduler.stage.runningStages.csv
-rw-r--r--   1 zhengqh  wheel    99B  5 18 11:36 local-1495078254084.driver.DAGScheduler.stage.failedStages.csv
-rw-r--r--   1 zhengqh  wheel   1.3K  5 18 11:36 local-1495078254084.driver.DAGScheduler.messageProcessingTime.csv
-rw-r--r--   1 zhengqh  wheel    99B  5 18 11:36 local-1495078254084.driver.DAGScheduler.job.allJobs.csv
-rw-r--r--   1 zhengqh  wheel    99B  5 18 11:36 local-1495078254084.driver.DAGScheduler.job.activeJobs.csv
-rw-r--r--   1 zhengqh  wheel   676B  5 18 11:36 local-1495078254084.driver.CodeGenerator.sourceCodeSize.csv
-rw-r--r--   1 zhengqh  wheel   676B  5 18 11:36 local-1495078254084.driver.CodeGenerator.generatedMethodSize.csv
-rw-r--r--   1 zhengqh  wheel   676B  5 18 11:36 local-1495078254084.driver.CodeGenerator.generatedClassSize.csv
-rw-r--r--   1 zhengqh  wheel   676B  5 18 11:36 local-1495078254084.driver.CodeGenerator.compilationTime.csv
-rw-r--r--   1 zhengqh  wheel   113B  5 18 11:36 local-1495078254084.driver.BlockManager.memory.remainingMem_MB.csv
-rw-r--r--   1 zhengqh  wheel    99B  5 18 11:36 local-1495078254084.driver.BlockManager.memory.memUsed_MB.csv
-rw-r--r--   1 zhengqh  wheel   113B  5 18 11:36 local-1495078254084.driver.BlockManager.memory.maxMem_MB.csv
-rw-r--r--   1 zhengqh  wheel    99B  5 18 11:36 local-1495078254084.driver.BlockManager.disk.diskSpaceUsed_MB.csv

➜  /tmp cat local-1495078254084.driver.DAGScheduler.messageProcessingTime.csv
t,count,max,mean,min,stddev,p50,p75,p95,p98,p99,p999,mean_rate,m1_rate,m5_rate,m15_rate,rate_unit,duration_unit
1495078315,0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,calls/second,milliseconds
1495078375,0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000,calls/second,milliseconds
1495078435,10,1207.284400,125.017564,0.027442,358.422668,0.317114,16.580495,1207.284400,1207.284400,1207.284400,1207.284400,0.055257,0.082101,0.028931,0.010599,calls/second,milliseconds
1495078495,10,1207.284400,125.017564,0.027442,358.422668,0.317114,16.580495,1207.284400,1207.284400,1207.284400,1207.284400,0.041499,0.030203,0.023686,0.009915,calls/second,milliseconds
1495078555,10,1207.284400,125.017564,0.027442,358.422668,0.317114,16.580495,1207.284400,1207.284400,1207.284400,1207.284400,0.033225,0.011111,0.019393,0.009276,calls/second,milliseconds
1495078577,10,1207.284400,125.017564,0.027442,358.422668,0.317114,16.580495,1207.284400,1207.284400,1207.284400,1207.284400,0.030895,0.007962,0.018142,0.009072,calls/second,milliseconds
1495078577,10,1207.284400,125.017564,0.027442,358.422668,0.317114,16.580495,1207.284400,1207.284400,1207.284400,1207.284400,0.030890,0.007962,0.018142,0.009072,calls/second,milliseconds

Spark Cassandra Metrics
1
2
executor.source.cassandra-connector.class=org.apache.spark.metrics.CassandraConnectorSource
driver.source.cassandra-connector.class=org.apache.spark.metrics.CassandraConnectorSource

Spark Influx Metrics
https://github.com/palantir/spark-influx-sink
spark.driver.extraClassPath=spark-influx-sink.jar:metrics-influxdb.jar
spark.executor.extraClassPath=spark-influx-sink.jar:metrics-influxdb.jar
1
2
3
4
5
6
7
*.sink.influx.class=org.apache.spark.metrics.sink.InfluxDbSink
*.sink.influx.protocol=https
*.sink.influx.host=localhost
*.sink.influx.port=8086
*.sink.influx.database=my_metrics
*.sink.influx.auth=metric_client:PASSWORD
*.sink.influx.tags=product:my_product,parent:my_service




开源大数据ETL工具
2017-02-14T16:00:00.000Z
BigData ETL Tools

datatorrent(apex)
执行./datatorrent-rts-community-3.7.0.bin --help打印帮助项
1
2
3
4
5
6
7
8
9
10
11
12
13
14
[qihuang.zheng@dp0653 install]$ sudo -u admin ./datatorrent-rts-community-3.7.0.bin \
-B /usr/install/datatorrent-rts -g 9094 \
-E DT_LOG_DIR=/home/admin/datatorrent \
-E DT_RUN_DIR=/home/admin/run/datatorrent

Verifying archive integrity... All good.
Uncompressing DataTorrent Distribution  100%

DataTorrent Platform 3.7.0 will be installed under /usr/install/datatorrent-rts/releases/3.7.0

dtGateway can be managed with: /usr/install/datatorrent-rts/releases/3.7.0/bin/dtgateway [start|stop|status]
DTGateway is running as pid 24571 and listening on 0.0.0.0:9094

Please finish the remaining installation steps via DataTorrent Console at: http://dp0653:9094/

创建apex项目，并打包
1
2
3
4
5
6
7
8
9
10
11
name=salesapp
version=3.5.0

mvn -B archetype:generate \
  -DarchetypeGroupId=org.apache.apex \
  -DarchetypeArtifactId=apex-app-archetype \
  -DarchetypeVersion=$version  \
  -DgroupId=com.example \
  -Dpackage=com.example.$name \
  -DartifactId=$name \
  -Dversion=1.0-SNAPSHOT

上传到datatorrent平台
StreamSets(https://github.com/streamsets/datacollector)
StreamFlow(https://github.com/lmco/streamflow)
CDAP(https://github.com/caskdata/cdap)


开发者构建工具
2016-12-31T16:00:00.000Z
Maven,SBT构建工具

Maven
assembly
maven-assembly-plugin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<plugin>
    <artifactId>maven-assembly-pluginartifactId>
    <configuration>
        <descriptorRefs>
            <descriptorRef>jar-with-dependenciesdescriptorRef>
        descriptorRefs>
    configuration>
    <executions>
        <execution>
            <id>make-assemblyid>
            <phase>packagephase>
            <goals>
                <goal>singlegoal>
            goals>
        execution>
    executions>
plugin>

maven-shade-plugin
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
<plugin>
    <groupId>org.apache.maven.pluginsgroupId>
    <artifactId>maven-shade-pluginartifactId>
    <version>2.4.3version>
    <executions>
        <execution>
            <phase>packagephase>
            <goals>
                <goal>
                    shade
                goal>
            goals>
        execution>
    executions>
    <configuration>
        <minimizeJar>trueminimizeJar>
        <shadedArtifactAttached>trueshadedArtifactAttached>
        <shadedClassifierName>fatshadedClassifierName>
        <relocations>
            <relocation>
                <pattern>com.googlepattern>
                <shadedPattern>shaded.guavashadedPattern>
                <includes>
                    <include>com.google.**include>
                includes>
                <excludes>
                    <exclude>com.google.common.base.Optionalexclude>
                    <exclude>com.google.common.base.Absentexclude>
                    <exclude>com.google.common.base.Presentexclude>
                excludes>
            relocation>
        relocations>
        <filters>
            <filter>
                <artifact>*:*artifact>
                <excludes>
                    <exclude>META-INF/*.SFexclude>
                    <exclude>META-INF/*.DSAexclude>
                    <exclude>META-INF/*.RSAexclude>
                excludes>
            filter>
        filters>
    configuration>
plugin>

1
2
3
4
5
6
7
8
9
10
11
[INFO] --- maven-jar-plugin:2.4:jar (default-jar) @ test ---
[INFO] Building jar: /Users/zhengqh/Github/test/target/test-1.0-SNAPSHOT.jar
[INFO] --- maven-assembly-plugin:2.2-beta-5:single (make-assembly) @ test ---
...
[INFO] Building jar: /Users/zhengqh/Github/test/target/test-1.0-SNAPSHOT-jar-with-dependencies.jar
[INFO] Minimizing jar test:test:jar:1.0-SNAPSHOT

$ ll target
-rw-r--r--  1 zhengqh  staff   8.1M  6 22 11:54 test-1.0-SNAPSHOT-fat.jar
-rw-r--r--  1 zhengqh  staff    29M  6 22 11:54 test-1.0-SNAPSHOT-jar-with-dependencies.jar
-rw-r--r--  1 zhengqh  staff   9.2K  6 22 11:54 test-1.0-SNAPSHOT.jar

maven-assembly-plugin生成test-1.0-SNAPSHOT-jar-with-dependencies.jar
maven-shade-plugin的shadedClassifierName为fat，结果：test-1.0-SNAPSHOT-fat.jar
1
2
3
4
5
6
7
8
➜  test jar -tvf target/test-1.0-SNAPSHOT-jar-with-dependencies.jar|grep shaded
assembly并不会重命令，只有shade才可以

➜  test jar -tvf target/test-1.0-SNAPSHOT-fat.jar|grep shaded
     0 Thu Jun 22 11:54:42 CST 2017 shaded/
     0 Thu Jun 22 11:54:42 CST 2017 shaded/guava/
     0 Thu Jun 22 11:54:42 CST 2017 shaded/guava/common/
     ...

install
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
mvn install:install-file -Dfile=~/Downloads/ojdbc6-11.2.0.3.jar -DgroupId=com.oracle -DartifactId=ojdbc6 -Dversion=11.2.0 -Dpackaging=jar

mvn install:install-file -Dfile=pontus-api_2.11-0.0.1.jar -DgroupId=cn.fraudmetrix.pontus -DartifactId=pontus-api_2.11 -Dversion=0.0.1 -Dpackaging=jar

[INFO] Scanning for projects...
[INFO]
[INFO] ------------------------------------------------------------------------
[INFO] Building Maven Stub Project (No POM) 1
[INFO] ------------------------------------------------------------------------
[INFO]
[INFO] --- maven-install-plugin:2.4:install-file (default-cli) @ standalone-pom ---
[INFO] Installing /Users/zhengqh/pontus-api_2.11-0.0.1.jar to /Users/zhengqh/.m2/repository/cn/fraudmetrix/pontus/pontus-api_2.11/0.0.1/pontus-api_2.11-0.0.1.jar
[INFO] Installing /var/folders/xc/x0b8crk9667ddh1zhfs29_zr0000gn/T/mvninstall1940592568391629100.pom to /Users/zhengqh/.m2/repository/cn/fraudmetrix/pontus/pontus-api_2.11/0.0.1/pontus-api_2.11-0.0.1.pom
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 1.088 s
[INFO] Finished at: 2017-07-17T11:50:49+08:00
[INFO] Final Memory: 6M/64M
[INFO] ------------------------------------------------------------------------

deploy
源码包上传
1
mvn deploy

本地包上传到nexus
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
mvn deploy:deploy-file -DgroupId= \
  -DartifactId= \
  -Dversion= \
  -Dpackaging= \
  -Dfile= \
  -DrepositoryId= \
  -Durl=

mvn deploy:deploy-file -DgroupId=依赖项的GroupID \
  -DartifactId=依赖项名称 \
  -Dversion=依赖版本 \
  -Dpackaging=jar \
  -Dfile=三方库的文件路径 \
  -DrepositoryId=fraudmetrixRepo \
  -Durl=http://maven.fraudmetrix.cn/nexus/content/repositories/releases/

repositoryId对应~/.m2/setting.xml中的server配置


  fraudmetrixRepo
  xxx
  xxx


部署pontus-api.jar
mvn deploy:deploy-file -DgroupId=cn.fraudmetrix.pontus -DartifactId=pontus-api_2.11 -Dversion=0.0.1 \
 -Dpackaging=jar -Dfile=pontus-api_2.11-0.0.1.jar \
 -Durl=http://maven.fraudmetrix.cn/nexus/content/repositories/releases/ -DrepositoryId=fraudmetrixRepo  

部署ojdbc.jar
mvn deploy:deploy-file -Dfile=/Users/zhengqh/Downloads/install/ojdbc6-11.2.0.3.jar \
  -DgroupId=com.oracle -DartifactId=ojdbc6 -Dversion=11.2.0 -Dpackaging=jar \
  -Durl=http://maven.fraudmetrix.cn/nexus/content/repositories/releases/ -DrepositoryId=fraudmetrixRepo

以-数字开头或者-V开头生成准备文件：
1
2
3
4
5
6
7
val files = new java.io.File("/Users/zhengqh/Downloads/V100R002C60U20CP003/common/lib").listFiles.map(_.getName).filter(_.startsWith("h")).toList
import scala.util.matching.Regex
val numitemPattern = "(.*)(-[0-9|V].*)".r
files.foreach(file => {
  val numitemPattern(art, version) = file
  println(file + " " + art + " " + version.substring(1).replace(".jar",""))    
})

导入到maven仓库：
1
2
3
4
5
6
7
8
9
10
cat genMaven.txt | while read line
do
  jar=`echo $line | cut -d" " -f1`
  art=`echo $line | cut -d" " -f2`
  ver=`echo $line | cut -d" " -f3`
  echo "$jar $art $ver"
  mvn deploy:deploy-file -Dfile=$jar \
  -DgroupId=com.huawei.fusion -DartifactId=$art -Dversion="$ver-FSV100R002C60U20CP003" -Dpackaging=jar \
  -Durl=http://maven.fraudmetrix.cn/nexus/content/repositories/releases/ -DrepositoryId=fraudmetrixRepo
done

不更改groupId,从MANIFEST中获取groupId
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
cat genMaven.txt | while read line
do
  jarName=`echo $line | cut -d" " -f1`
  art=`echo $line | cut -d" " -f2`
  ver=`echo $line | cut -d" " -f3`
  printf "$jarName $art $ver "
  jar xf $jarName META-INF/MANIFEST.MF
  group=$(cat META-INF/MANIFEST.MF |grep Implementation-Vendor-Id |cut -d" " -f2)
  if [ -n "$group" ]; then
   printf "$group"
   print
  fi
  rm -rf META-INF
done

cat genFS.txt | while read line
do
  jarName=`echo $line | cut -d" " -f1`
  art=`echo $line | cut -d" " -f2`
  ver=`echo $line | cut -d" " -f3`
  group=`echo $line | cut -d" " -f4`
  echo "$jarName $art $ver $group"
  mvn deploy:deploy-file -Dfile=$jarName \
    -DgroupId=$group -DartifactId=$art -Dversion="$ver-FSV100R002C60U20CP003" -Dpackaging=jar \
    -Durl=http://maven.fraudmetrix.cn/nexus/content/repositories/releases/ -DrepositoryId=fraudmetrixRepo  
done

找不到的jar包改版本后重新上传
1
2
3
4
5
mvn deploy:deploy-file -Dfile=hadoop-yarn-server-tests-2.7.2.jar \
  -DgroupId=org.apache.hadoop -DartifactId=hadoop-yarn-server-tests -Dversion=2.7.2-FSV100R002C60U20CP003 -Dpackaging=jar \
  -Durl=http://maven.fraudmetrix.cn/nexus/content/repositories/releases/ -DrepositoryId=fraudmetrixRepo
  
find ~/.m2/ -name "*.lastUpdated" | xargs rm

SBT
Ref

https://stackoverflow.com/questions/13620281/what-is-the-maven-shade-plugin-used-for-and-why-would-you-want-to-relocate-java
https://www.elastic.co/blog/to-shade-or-not-to-shade#sthash.CRl8HKfN.dpbs
http://ju.outofmemory.cn/entry/67085

配置参数	配置示例	动态传参数
`streaming.sql.source.[name].[参数]`	“path”: “file:///tmp/sample_article.txt”	-streaming.sql.source.firstSource.path file:///tmp/wow.txt
`streaming.sql.out.[name].[参数]`	“path”: “file:///tmp/sample_article.txt”	-streaming.sql.source.firstSink.path file:///tmp/wow_20170101.txt
`streaming.sql.params.[param-name]`	“sql”: “select * from test where hp_time=:today”	-streaming.sql.params.today “20170101”

bigdata system	Master	Slave
Hadoop HDFS	NameNode	DataNode
Hadoop YARN	ReourceManager	NodeManager
Spark	ClusterManagement	Worker
Storm	Nimbus	Supervisor
Gearpump	Master	Worker

zqhxuyuan

蚂蚁金服 - 消息系统研发工程师/技术专家

Kafka消费者增量拉取

简介

源码解析

Kafka技术内幕

本书介绍：

English Introduce

目录

勘误表

Introduce

源码分析汇总

新消费者

Kafka Connect

Kafka Streams

Kafka技术内幕附录

第11章：附录

11.1 Kafka基本操作

11.1.1 创建、修改、删除、查看主题

11.1.2 生产者和消费者

11.1.3 扩展集群

11.2 安全机制（Security）

11.3 Kafka配置

11.3.1 服务端的配置项

11.3.2 生产者的配置项

11.3.3 新消费者的配置项

11.4 Kafka其他操作实验

11.4.1 ZooKeeper连接配置

11.4.2 MirrorMaker演示消费者线程数量

11.4.3 生产者和消费者性能测试

11.5 第三方工具

11.5.1 Confluent Platform

1. 控制中心（Controll Center）

2. 连接器（Kafka Connect）

Kafka技术内幕拾遗

客户端的元数据对象

1. 客户端轮询与元数据更新器

2. 元数据对象

3. 元数据更新的日志与实例

客户端线程模型（Thread Model）

消费者的线程模型

连接器的线程模型

流处理的线程模型

小结

即席查询（Interactive Query）

EOS事务（Transaction）

图解Java多线程

读书笔记-Design Data Intensive Applications

Ch3: Storage and Retrieval

深入解析中间件之-RocketMQ

QuickStart

API示例

生产者

消费者

基本流程

Remoting RPC示例

Netty RPC

生产者发送消息

Pull Consumer

设计

架构

物理部署结构（服务端）

逻辑部署结构（客户端）

存储结构

负载均衡（7.8/7.9）

消息查询(TODO 7.3)

按照MessageId查询

按照MessageKey查询

消息过滤(TODO 7.4)

长轮询Pull(TODO 7.5)

顺序消息(TODO 7.6)

消费线程(单队列并行消费, 7.10)

消息堆积、消息重试

事务(TODO)

Producer Group

扩容

参考文档

深入解析中间件之-TCC事务

深入解析中间件之-Dubbo

QuickStart

11.2 安全机制（`Security`）

11.4.2 `MirrorMaker`演示消费者线程数量