From 97c0d2f9500d6184caaf28d5903d7e1a5536fa76 Mon Sep 17 00:00:00 2001 From: Kou Shuang Date: Thu, 10 Oct 2019 12:47:48 +0800 Subject: [PATCH] =?UTF-8?q?Create=20Kafka=E5=85=A5=E9=97=A8=E7=9C=8B?= =?UTF-8?q?=E8=BF=99=E4=B8=80=E7=AF=87=E5=B0=B1=E5=A4=9F=E4=BA=86.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../Kafka入门看这一篇就够了.md | 31 +++++++++++++++++++ 1 file changed, 31 insertions(+) create mode 100644 docs/system-design/data-communication/Kafka入门看这一篇就够了.md diff --git a/docs/system-design/data-communication/Kafka入门看这一篇就够了.md b/docs/system-design/data-communication/Kafka入门看这一篇就够了.md new file mode 100644 index 00000000..4894f3b7 --- /dev/null +++ b/docs/system-design/data-communication/Kafka入门看这一篇就够了.md @@ -0,0 +1,31 @@ +# 一、Kafka 简介 + +------ + +## Kafka 创建背景 + +**Kafka** 是一个消息系统,原本开发自 LinkedIn,用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipeline)的基础。现在它已被[多家不同类型的公司](https://cwiki.apache.org/confluence/display/KAFKA/Powered+By) 作为多种类型的数据管道和消息系统使用。 + +**活动流数据**是几乎所有站点在对其网站使用情况做报表时都要用到的数据中最常规的部分。活动数据包括页面访问量(Page View)、被查看内容方面的信息以及搜索情况等内容。这种数据通常的处理方式是先把各种活动以日志的形式写入某种文件,然后周期性地对这些文件进行统计分析。**运营数据**指的是服务器的性能数据(CPU、IO 使用率、请求时间、服务日志等等数据)。运营数据的统计方法种类繁多。 + +近年来,活动和运营数据处理已经成为了网站软件产品特性中一个至关重要的组成部分,这就需要一套稍微更加复杂的基础设施对其提供支持。 + +## Kafka 简介 + +Kafka 是一种分布式的,基于发布 / 订阅的消息系统。主要设计目标如下: + +- 以时间复杂度为 O(1) 的方式提供消息持久化能力,即使对 TB 级以上数据也能保证常数时间复杂度的访问性能。 +- 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒 100K 条以上消息的传输。 +- 支持 Kafka Server 间的消息分区,及分布式消费,同时保证每个 Partition 内的消息顺序传输。 +- 同时支持离线数据处理和实时数据处理。 +- Scale out:支持在线水平扩展。 + +## Kafka 基础概念 + +### 概念一:生产者与消费者 + + + +对于 Kafka 来说客户端有两种基本类型:**生产者(Producer)**和**消费者(Consumer)**。除此之外,还有用来做数据集成的 Kafka Connect API 和流式处理的 Kafka Streams 等高阶客户端,但这些高阶客户端底层仍然是生产者和消费者API,它们只不过是在上层做了封装。 + +这很容易理解,生产者(也称为发布者)创建消息,而消费者(也称为订阅者)负责消费or读取消息。 \ No newline at end of file