2017年9月 – 第6页 – Linux系统运维日志

di – 比 df 更有用的磁盘信息工具

如果你是个Linux命令行用户，你肯定会使用df命令检查文件系统的磁盘使用情况。尽管df是一个受欢迎的命令，但仍然不能提供一些高级的功能，如一个用户实际的磁盘可用空间，以及各种有用的显示格式等。还有另一个命令行实用工具可用，不仅提供了这些高级功能也提供了df的所有特性。在本文中,我们将讨论磁盘信息工具 — di

未分类

注释 – 如果你想了解 df 更多信息, 查看 df命令教程.

di – 磁盘信息工具

未分类

从这个di帮助手册页很明显的发现 di 提供了一些很有价值的特性，值得一试。让我们看一些这个工具实际使用的例子。

1、测试环境

OS – Ubuntu 13.04
Shell – Bash 4.2.45
Application – di 4.30

一个简短的教程

下面是一些 di 工具的示例:

1. 默认的输出

默认情况下di命令生成人们易读的输出格式

这里有个示例:

$ di
Filesystem         Mount               Size     Used    Avail %Used  fs Type 
/dev/sda6          /                  28.1G    20.2G     6.5G   77%  ext4    
udev               /dev                1.5G     0.0G     1.5G    0%  devtmpfs
tmpfs              /run              300.2M     0.9M   299.3M    0%  tmpfs

所以你能发现用千兆字节(G)和兆字节(M)做磁盘使用情况的数据单位。这绝对是比 df 默认的输出产生的效果好。（译注：df也可以输出带类似单位的显示，只是需要额外加参数 -h）

2. 用 -A 选项打印类似挂载点、特殊设备名称等全部字段

选项 -A可以用来极详细的打印挂载点，特殊设备名称等。

这里有个示例:

$ di -A
Mount fs Type  Filesystem 
     Options                             
        Size     Used     Free %Used  %Free 
        Size     Used    Avail %Used  %Free 
        Size     Used    Avail %Used  
       Inodes     Iused     Ifree %Iused
/     ext4     /dev/sda6  
    rw,errors=remount-ro                
       28.1G    20.2G     8.0G   72%    28%  
       28.1G    21.6G     6.5G   77%    23%  
       26.7G    20.2G     6.5G   75%  
      1884160    389881   1494279   21% 
/dev  devtmpfs udev       
    rw,mode=0755                        
        1.5G     0.0G     1.5G    0%   100%  
        1.5G     0.0G     1.5G    0%   100%  
        1.5G     0.0G     1.5G    0%  
       381805       571    381234    0% 
/run  tmpfs    tmpfs      
    rw,noexec,nosuid,size=10%,mode=0755 
      300.2M     0.9M   299.3M    0%   100%  
      300.2M     0.9M   299.3M    0%   100%  
      300.2M     0.9M   299.3M    0%  
       384191       549    383642    0%

所以你可以看到所有的字段，可以用于调试目的时打印输出。

3. 用 -a选项打印所有挂载设备

这里是个示例:

$ di -a
Filesystem         Mount               Size     Used    Avail %Used  fs Type        
/dev/sda6          /                  28.1G    20.2G     6.5G   77%  ext4           
udev               /dev                1.5G     0.0G     1.5G    0%  devtmpfs       
devpts             /dev/pts            0.0M     0.0M     0.0M    0%  devpts         
proc               /proc               0.0M     0.0M     0.0M    0%  proc           
binfmt_misc        /proc/sys/fs/bi     0.0M     0.0M     0.0M    0%  binfmt_misc    
tmpfs              /run              300.2M     0.9M   299.3M    0%  tmpfs          
none               /run/lock           0.0M     0.0M     0.0M    0%  tmpfs          
none               /run/shm            0.0M     0.0M     0.0M    0%  tmpfs          
none               /run/user           0.0M     0.0M     0.0M    0%  tmpfs          
gvfsd-fuse         /run/user/himan     0.0M     0.0M     0.0M    0%  fuse.gvfsd-fuse
sysfs              /sys                0.0M     0.0M     0.0M    0%  sysfs          
none               /sys/fs/cgroup      0.0M     0.0M     0.0M    0%  tmpfs          
none               /sys/fs/fuse/co     0.0M     0.0M     0.0M    0%  fusectl        
none               /sys/kernel/deb     0.0M     0.0M     0.0M    0%  debugfs        
none               /sys/kernel/sec     0.0M     0.0M     0.0M    0%  securityfs

所以你能看到与所有设备相关的所有信息，被打印出来了。

4. 用 -c 选项用逗号作为值的分隔符

选项 -c 用命令分隔的值将附上双引号

这里是个示例:

$ di -c
s,m,b,u,v,p,T
/dev/sda6,/,28.1G,20.2G,6.5G,77%,ext4
udev,/dev,1.5G,0.0G,1.5G,0%,devtmpfs
tmpfs,/run,300.2M,0.9M,299.3M,0%,tmpfs

如上,你可以看到打印了用逗号分隔符输出的值。（译注：这种输出便于作为其他程序的输入解析）

5. 用 -g 选项通过千兆字节(G)打印大小

下面是个示例:

$ di -g
Filesystem         Mount              Gibis     Used    Avail %Used  fs Type 
/dev/sda6          /                   28.1     20.2      6.5   77%  ext4    
udev               /dev                 1.5      0.0      1.5    0%  devtmpfs
tmpfs              /run                 0.3      0.0      0.3    0%  tmpfs

当然,你能看到所有与大小有关的值都用千兆字节(G)打印出来。

同样的你可以用 -k 和 -m 选项来分别的显示千字节(K)大小和兆字节(M)大小。

6. 通过 -I 选项显示特定的文件系统类型的相关信息

假设你想显示只跟tmpfs文件系统相关的信息。下面将告诉你如何用 -I 选项完成任务。

$ di -I tmpfs
Filesystem         Mount               Size     Used    Avail %Used  fs Type
tmpfs              /run              300.2M     0.9M   299.3M    0%  tmpfs  
none               /run/lock           5.0M     0.0M     5.0M    0%  tmpfs  
none               /run/shm            1.5G     0.0G     1.5G    0%  tmpfs  
none               /run/user         100.0M     0.0M   100.0M    0%  tmpfs  
none               /sys/fs/cgroup      0.0M     0.0M     0.0M    0%  tmpfs

Ok 你能看到只有tmpfs类型相关文件系统信息被输出并显示出来了。

7. 用 -n 选项跳过标题行的输出

如果你正试图通过一个脚本(或程序)解析该命令的输出结果并希望 di 命令跳过显示的标题行，那么用 -n 选项是绝佳的方法。

下面是个示例:

$ di -n
/dev/sda6          /                  28.1G    20.2G     6.5G   77%  ext4    
udev               /dev                1.5G     0.0G     1.5G    0%  devtmpfs
tmpfs              /run              300.2M     0.9M   299.3M    0%  tmpfs

如上，你能发现输出中并没有显示标题行。

8. 通过 -t 选项在文件系统列表底下再打印一行总计行

如果想要显示所有相关列的总数，用 -t 选项。

示例:

$ di -t
Filesystem         Mount               Size     Used    Avail %Used  fs Type 
/dev/sda6          /                  28.1G    20.2G     6.5G   77%  ext4    
udev               /dev                1.5G     0.0G     1.5G    0%  devtmpfs
tmpfs              /run              300.2M     0.9M   299.3M    0%  tmpfs   
                   Total              29.9G    20.2G     8.3G   72%

观察到最后一行的值为所有文件系统的统计数据。

9. 通过 -s 选项排序输出

-s选项可用于排序该命令的输出结果（译注：默认按照挂载点名称排序）

下面告诉你如何反向排序输出:

$ di -sr
Filesystem         Mount               Size     Used    Avail %Used  fs Type
tmpfs              /run              300.2M     0.9M   299.3M    0%  tmpfs
udev               /dev                1.5G     0.0G     1.5G    0%  devtmpfs
/dev/sda6          /                  28.1G    20.2G     6.5G   77%  ext4

你也可以在-s后添加子选项’r’逆序排序输出。

类似的,你可以使用 -s 选项做一些其他类型的排序.以下是摘自man手册供您参考:

-s 排序方式

可以指定排序方式。默认排序方式的按照挂载点的名称进行排序。支持如下的排序方式：

   m ：按照挂载点名称排序（默认）

   n  ：不排序（即按照在挂载表/etc/fstab中的顺序）

   s   ：按照特殊设备名称

   t   ：按照文件系统类型

   r   ：逆序排序

排序方式可以组合使用，如： di –stsrm ：按照类型、设备、挂载点逆序排序。di –strsrm ：按照类型、设备逆序、挂载点逆序排序。

10. 通过 -f 选项指定输出格式

你可以通过结合-f选项和其子选项指定输出格式字符串。

例如，用 -fm，打印挂载点的名称。

示例:

$ di -fm
Mount          
/              
/dev          
/run

如上你可以看到只有挂载点的名字被打印出来。

同样的，打印文件系统的类型，用 -ft

示例:

$ di -ft
fsType 
ext4   
devtmpf
tmpfs

如果你想快速查找,这里有个其他可用的格式选项截图.

更完整的选项,参考： http://www.manpagez.com/man/1/di/

下载/安装

这里有一些关于di命令的重要链接:

主页： http://www.gentoo.com/di/
下载链接： http://freecode.com/projects/diskinfo

命令行工具 di 也能通过apt、yum等命令在命令行下载和安装。Ubuntu用户也可以从Ubuntu 软件中心下载这个命令。

优点

提供了许多高级功能
跨平台

缺点

在大多数的Linux发行版没有预装
大量选项需要学习

结论

最后，di命令提供了一些非常有用的特性，比df命令更强大。如果你正在寻找一个类似df，但比df更强大的关于磁盘信息的命令行工具，那么di是最理想的选择。试试吧，包你满意!!!

使用Docker快速创建.Net Core2.0 Nginx负载均衡节点

本文版权归博客园和作者吴双本人共同所有转载和爬虫请注明原文地址 www.cnblogs.com/tdws

一.Self-Host Kestrel

1、在vs2017中新建dotnet core2.0 webapi项目 ApiService

2.、参照官方文档，https://docs.microsoft.com/en-us/aspnet/core/publishing/linuxproduction?tabs=aspnetcore2x 在Startup中增加

app.UseForwardedHeaders(new ForwardedHeadersOptions
{
    ForwardedHeaders = ForwardedHeaders.XForwardedFor | ForwardedHeaders.XForwardedProto
});

配置运行Url, 在Program.cs中

未分类

3、发布项目文件，通过FTP上传到linux服务器。一个core2.0 webapi新项目发布后只有几百kb

4、切换目录，dotnet ApiService.dll

5、运行成功，开放服务器端口，不过目前是运行于Kestrel 的selfhost 状态。

未分类

二. 需要一个代理

ASP.NET Core 的运行环境由新开发的 Kestrel Server 负责，IIS 退回到 HTTP 的侦听器的角色，微软也特别为了这个需求开发了 IIS Platform Handler，以处理 HTTP 与运行环境之间的信息转发工作，微软官方推荐在Linux服务器上使用Nginx，Haproxy等代理Kestrel Server

理解dotnet core host最重要的一点是，它独立运行。不在IIS中运行，也不需要IIS运行。它拥有独立的自宿主Web Server，在内部使用self-host server处理请求。

然而，你依然可以把IIS放在self-host server前面，作为一个前端代理，因为Kestrel是一个只拥有原始功能的web server，它并没有像iis那样完整的web server 功能，比如Kestrel不支持单个ip上，多个应用绑定80端口，IIS还可以提供静态文件服务，gzip压缩，静态文件缓存等其他高级功能，IIS在处理请求时效率非常好，，所以有必要利用这一点，您可以让iis处理它真正擅长的任务，并将动态任务传递到core应用程序。所以说在windows上，iis依然继续扮演着非常重要的角色。

在传统经典的Asp.Net应用中，所有内容都托管在iis工作进程中（w3wp.exe），这就是我们常说的应用程序池。并且应用由IIS内置托管功能加载实例化，经过工作者进程加载aspnet_isapi.dll，在用aspnet_isapi加载.Net运行时。IIS工作者进程中的应用程序池加载应用程序域。一系列工作结束后，由ISAPIRuntime对象调用PR方法，封装HttpWorkerRequest对象，传递给HttpRuntime 创建HttpApplication实例，然后一系列HttpApplication初始化和管道事件执行。当然加载运行时，应用程序域等都只是第一个请求到达后做的事儿。

在dotnet core中很不同的是，core不会在iis工作进程中运行，而是在自己的Kestrel组件中。通过一个叫做AspNetCoreModule的原生的IIS module，执行外部的应用。Kestrel是一款针对吞吐量性能做了大量优化的dotnet web server的实现，它将网络请求快速传递给你的应用，但它仅仅是一个原始的web server，没有IIS那样全面的Web管理服务。

未分类

虽然IIS站点依然需要应用程序池，但是应该设置为无托管代码，由于应用程序池只作为转发请求的代理，因此不需要实例化.net 运行时。所以在linux上也一样，我们需要一个self-host的前端代理，在这里参考文档使用nginx。

三.nginx做代理

找到/etc/nginx配置nginx.conf

server {
    listen 80;
    location / {
        proxy_pass http://localhost:5000;
        proxy_http_version 1.1;
        proxy_set_header Upgrade $http_upgrade;
        proxy_set_header Connection keep-alive;
        proxy_set_header Host $host;
        proxy_cache_bypass $http_upgrade;
    }
}

我将nginx 的user改为root 5000改成自己的10000

创建service file

nano /etc/systemd/system/apiservice.service

service file的内容，官方示例：

[Unit]
Description=Example .NET Web API Application running on Ubuntu

[Service]
WorkingDirectory=/var/aspnetcore/hellomvc
ExecStart=/usr/bin/dotnet /var/aspnetcore/hellomvc/hellomvc.dll
Restart=always
RestartSec=10  # Restart service after 10 seconds if dotnet service crashes
SyslogIdentifier=dotnet-example
User=www-data
Environment=ASPNETCORE_ENVIRONMENT=Production 

[Install]
WantedBy=multi-user.target

修改了 User为root。还修改了工作目录就是我项目文件ftp上传后的目录，ExecStart的 dotnet这个目录不要修改 dll目录，改成目标要执行的dll的目录

然后enable service

执行 systemctl enable kestrel-hellomvc.service

start并验证service的状态

systemctl start kestrel-hellomvc.service

systemctl status kestrel-hellomvc.service

访问监听中的80端口，证明服务成功。

四.做负载均衡

按照相同的方式我们再部署一个10001，修改nginx，配置负载均衡。

未分类

访问证明我们配置成功。

未分类

五.创建Docker Image

官方提供的dotnet core镜像位 microsoft/dotnet。docker基础命令就不提了，刚开始用也是边学边记。下面基于microsoft/dotnet image创建自己的image。以便快速运行多个docker image,配置更多的负载均衡，而无需手动copy到各个服务器上再配置环境，也就是说无论我们创建几十个甚至上百个，有我们自己的docker hub的话，创建起来是很快的，也不会出现在这台服务器上可用，在另一台服务器上搞出什么其他问题。

下面只是一个学习过程中自己的范例，离最佳实践方式还差得很远，希望能对看随笔的朋友有所帮助。

由于还要在每个image的apiService前面放置nginx,所以 core application在各个容器中都是使用self-host的形式，在Kestrel上运行。在前端通过nginx 对docker暴露出的端口号进行代理。

在发布的网站目录下创建Dockerfile。

未分类

保存后执行docker构建使用当前目录的Dockerfile创建镜像。docker build -t image/apiservice-v3 . 注意结尾有个 . （使用当前目录）

未分类

docker images 查看镜像

我们可以发现刚创建的docker image 比我们FROM的microsoft/dotnet 大小大一点。

未分类

下面运行下看看四行命令运行了四个我们刚创建的image

docker run -d -p :81:20000 image/apiservice-v3

未分类

docker ps -a 查看下运行中的image进程

未分类

下面配置nginx负载均衡然后service nginx reload，实验完成。

未分类

下面使用docker kill对docker container逐一停止，停止后访问，确认负载均衡成功。当四个container都停止后，nginx返回 502 error.

未分类

浅析负载均衡及LVS实现

负载均衡（Load Balance，缩写LB）是一种网络技术，它在多个备选资源中做资源分配，以达到选择最优。这里有三个关键字：

网络技术，LB要解决的问题本质上是网络的问题，所以它实际上就是通过修改数据包中MAC地址、IP地址字段来实现数据包的“中转”；
资源，这里的资源不仅仅是计算机也可以是交换机、存储设备等；
最优，它则是针对业务而言最优，所以一般负载均衡有很多算法；轮询、加权轮询、最小负载等；

LB是网络技术所以业内就参考OSI模型用四层负载均衡、七层负载均衡进行分类。四层负载均衡工作在OSI的四层，这一层主要是TCP、UDP、SCTP协议，这种类型的负载均衡器不管数据包是什么，只是通过修改IP头部或者以太网头部的地址实现负载均衡。七层负载均衡工作在OSI的七层，这一层主要是HTTP、Mysql等协议，这种负载均衡一般会把数据包内容解析出来后通过一定算法找到合适的服务器转发请求。它是针对某个特定协议所以不通用。比如Nginx只能用于HTTP而不适用于Mysql。
四层负载均衡真正传统意义上的负载均衡，它通过修改网络数据包“中转”请求；一般工作在操作系统的内核空间（kernel space），比如通过Linux的netfilter定义的hook改变数据包。七层负载均衡并不是严格意义上的负载均衡，它必须解析出数据包的内容，根据内容来做相关的转发（比如做Mysql的读写分离）；一般工作在用户空间（user space），比如通过Nginx、Mysql Proxy、Apache它们都是实现某个具体协议，很多资料都称这种软件叫代理（Proxy）。

实现LB的问题

无论哪种负载均衡都可以抽象为下面的图形：

未分类

任何负载均衡都要解决三个问题：

修改数据包，使得数据包可以发送到backend servers；
frontend server要维护一个算法，可以选出最优的backend server
frontend server要维护一张表记录Client和backend servers的关系（比如TCP请求是一系列数据包，所以在TCP关闭所有的数据包都应该发送到同一个backend server）

以Nginx为例，forntend server收到HTTP数据包后会通过负载均衡算法选择出一台backend server；然后从本地重新构造一个HTTP请求发送给backend server，收到backend server请求后再次重新封装，以自己的身份返回给客户端。在这个过程中forntend server的Nginx是工作在用户空间的它代替Client访问backend server。

LVS的实现

LVS( Linux Virtual Server)是国产开源中非常非常非常优秀的项目，作者是章文嵩博士（关于章博的简历各位自行搜索）。它是一款四层负载均衡软件，在它的实现中forntend server称为director；backend server称为real server，它支持UDP、TCP、SCTP、IPSec（ AH 、ESP两种数据包）四种传输层协议的负载。

未分类

LVS以内核模块的形式加载到内核空间，通过netfilter定义的hook来实现数据包的控制。它用到了三个Hook（以Linux 4.8.15为例）主要“挂在”：local_in、inet_forward、local_out；所有发送给本机的数据包都会经过local_int，所有非本机的数据包都会经过forward，所有从本机发出的数据包都会经过local_out。

LVS由两部分组成（很像iptables），用户空间提供了一个ipvsadm的命令行工具，通过它定义负载均衡的“规则”；内核模块是系统的主要模块它包括：

IP包处理模块，用于截取/改写IP报文；
连接表管理，用于记录当前连接的Hash表；
调度算法模块，提供了八种负载均衡算法——轮询、加权轮询、最少链接、加权最少链接、局部性最少链接、带复制的局部性最少链接、目标地址哈希、源地址哈希；
连接状态收集，回收已经过时的连接；
统计，IPVS的统计信息；

LVS实战

LVS术语定义：

DS：Director Server，前端负载均衡器节点（后文用Director称呼）；
RS：Real Server，后端真实服务器；
VIP：用户请求的目标的IP地址，一般是公网IP地址；
DIP：Director Server IP，Director和Real Server通讯的内网IP地址；
RIP：Real Server IP，Director和Real Server通讯的内网IP地址；

很多文章都罗列了一大堆LVS三种模式之间的区别，我最讨厌的就是简单的罗列——没有什么逻辑性很难记忆。其实LVS中三种模式只有一个区别——谁来返回数据到客户端。在LB架构中客户端请求一定是先到达forntend server（LVS中称为Director），那么返回数据包则不一定经过Director。

NAT模式中，RS返回数据包是返回给Director，Director再返回给客户端；
DR（Direct Routing）模式中，RS返回数据是直接返回给客户端（通过额外的路由）；Director通过修改请求中目标地址MAC为选定的RS实现数据转发，这就要求Diretor和Real Server必须在同一个广播域内（关于广播域请看《程序员学网络系列》）。
TUN（IP Tunneling）模式中，RS返回的数据也是直接返回给客户端，这种模式通过Overlay协议（把一个IP数据包封装到另一个数据包内部叫Overlay）避免了DR的限制。

以上就是LVS三种模式真正的区别，是不是清晰多了？^_^

NAT模式

未分类

NAT模式最简单，real_server只配置一个内网IP地址（RIP），网关指向director；director配置连个IP地址分别是提供外部服务的VIP和用于内部通讯的DIP。

配置IP地址

VIP：10.10.10.10，

DIP：192.168.122.100

RS1-DIP：192.168.122.101

RS2-DIP：192.168.122.102

未分类

注意：Director配置了双网卡，默认路由指向10.10.10.1。即——VIP所在的网卡设置网关，DIP所在的网卡不要设置网关。

配置director

Linux默认不会“转发”数据包，通过echo 1 > /proc/sys/net/ipv4/ip_forward开启forward功能。开启forward后Linux表现的就像一个路由器，它会根据本机的路由表转发数据包。

ipvsadm -A -t 10.10.10.10:80 -s rr       # 添加LVS集群，负载均衡算法为轮询（rr）
ipvsadm -a -t 10.10.10.10:80 -r 192.168.122.101 -m -w 1   # 添加LVS集群主机（10.10.10.10:80），VS调度模式为NAT（-m）及RS权重为1
ipvsadm -a -t 10.10.10.10:80 -r 192.168.122.102 -m -w 1   # 同上

验证

通过client访问10.10.10.10的HTTP服务

未分类

NAT模式原理解析

client发送数据包，被路由到director服务器上；
director的netfilter local_in hook被触发，lvs模块收到该请求
lvs查询规则库（ipvsadm生成的规则），发现10.10.10.10:80端口被定义为NAT模式，执行轮询算法
IP包处理模块修改数据包，把目标IP地址修改为192.168.122.101，从DIP的所在网卡发送出去（所以源MAC是DIP网卡的MAC）。此时的数据包是：源MAC地址变成了00:01:3a:4d:5d:00（DIP网卡的MAC地址）源IP地址是172.10.10.10（client的IP地址），目标MAC和目标IP地址是本机地址。通过在RS1上抓包验证这一点

未分类

注意，Linux不会“校验”源IP地址是否是本机IP地址所以即便172.10.10.10不在DIP上数据包也是可以被发送的，此时的行为相当于“路由”（想一下“网关”如何给你发送某个公网返回的数据包）。

RS1收到请求目标MAC和IP都是本机，所以直接交给Nginx处理
Nginx的返回数据包交给Linux协议栈，系统发现目标地址是172.10.10.10和自己不在同一个网段，则把数据包交给网关——192.168.122.100（director）。这就是Real Server必须把网关指向Director Server的原因
director上的lvs再次触发，发现是返回数据包是：源MAC地址和IP地址是VIP网卡的MAC地址

这种模式虽然叫NAT模式，其实和NAT关系并不大，只是借用NAT的概念而已（发送到RS的源IP地址还是客户端的IP地址而不是DIP）。

DR模式

未分类

DR（Direct Route，直接路由）和NAT模式最大的区别是RS返回数据包不经过Director而是直接返回给用户。用户到达Director后，LVS会修改用户数据包中目标MAC地址为Real Server然后从DIP所在网卡转发出去，RS的返回数据包直接从单独的链路（拓扑图中是SW2R1）返回给用户。

所以DR模式中要求

Director和RS必须在同一个广播域中，也就是二层可达（实验的拓扑中是通过SW2实现的），因为Director要修改目标MAC地址所以数据包只能在广播域内转发；
RS必须可以路由到用户，也就是三层可达（实验的拓扑中Director和Real server共享同一个路由），因为Real Server的返回数据包是直接返回给用户的不经过Director；
配置IP

VIP：10.10.10.10，

DIP：192.168.122.100

RS1-DIP：192.168.122.101

RS2-DIP：192.168.122.102

配置Real Server

#绑定VIP到本机的环回口
ifconfig lo:0 10.10.10.10 netmask 255.255.255.255  broadcast 10.10.10.10 up
#禁用ARP响应
echo 1 > /proc/sys/net/ipv4/conf/all/arp_ignore
echo 1 > /proc/sys/net/ipv4/conf/lo/arp_ignore
echo 2 > /proc/sys/net/ipv4/conf/all/arp_announce
echo 2 > /proc/sys/net/ipv4/conf/lo/arp_announce

RS是直接返回数据给用户，所以必须绑定VIP地址；因为Director和Real Server都绑定了VIP所以RS必须禁用ARP信息否则可能导致用户请求不是发送给Director而是直接到RS，这和LVS的期望是不相符的。。不同于NAT，在DR模式下RS的网关是指向默认网关的也就是能“返回”数据到客户端的网关（试验中R1充当默认网关）。

配置Director

ipvsadm -A -t 10.10.10.10:80 -s rr       # 添加LVS集群，负载均衡算法为轮询（rr）
ipvsadm -a -t 10.10.10.10:80 -r 192.168.122.101 -g -w 1   # 添加LVS集群主机（10.10.10.10:80），VS调度模式为DR（-g）及RS权重为1
ipvsadm -a -t 10.10.10.10:80 -r 192.168.122.102 -g -w 1   # 同上

验证

通过client访问10.10.10.10的HTTP服务

未分类

DR模式原理解析

client发送数据包，被路由到director服务器上；
director的netfilter local_in hook被触发，lvs模块收到该请求
lvs查询规则库（ipvsadm生成的规则），发现10.10.10.10:80端口被定义为DR模式，执行轮询算法
IP包处理模块修改数据包，把目标MAC修改为选中的RS的MAC地址，从DIP的所在网卡发送出去（所以源MAC是DIP网卡的MAC）。此时的数据包是：源MAC地址变成了00:01:3a:4d:5d:00（DIP网卡的MAC地址）源IP地址是172.10.10.10（client的IP地址），目标MAC是00:01:3a:f4:c5:00（RS的MAC）目标IP地址10.10.10.10（VIP）。通过在RS1上抓包验证这一点

未分类

RS1收到请求目标MAC和IP都是本机（VIP配置在本机的环回口），所以直接交给Nginx处理
Nginx的返回数据包交给Linux协议栈，系统发现目标地址是172.10.10.10和自己不在同一个网段，则把数据包交给网关——192.168.122.1。在我们的试验中R1是网关，它是可以直接返回数据给客户端的，所以数据被成功返回到客户端。

注意：在操作系统中（无论是Linux或者Windows）返回数据的时候是根据IP地址返回的而不是MAC地址，RS收到数据包MAC地址是Director的而IP地址则是客户端的RS如果按MAC地址返回那么数据包就发送到Director了，很显然是不正确的。而LVS的DR模式正是利用了这一点。

TUN模式

未分类

TUN（IP Tunneling，IP通道）是对DR模式的优化。和DR一样，请求数据包经过Director到Real Server返回数据包则是Real Server直接返回客户端。区别是：DR模式要求Director和Real Server在同一个广播域（通过修改目标MAC地址实现数据包转发）而TUN模式则是通过Overlay协议。
Overlay协议就是指把一个IP数据包封装在另一个数据包里面，LVS里面的Overlay协议属于比较原始的实现叫IP-in-IP，目前常见的Overlay协议包括：VxLAN、GRE、STT之类的。
T
UN模式要求

Director和Real Server必须三层可达，拓扑图中故意加上一个R2用于分割两个广播域；
Real Server必须可以路由到用户，也就是三层可达（实验的拓扑中Director和Real server共享同一个路由），因为RS的返回数据包是直接返回给用户的不经过Director；
因为采用Overlay协议，Real Server的MTU值必须设置为1480（1500-20）——即实际上能发送的数据要加上外层IP头部

TUN模式和DR模式没有本质区别（配置是一摸一样的，只是网络要求不一样），两者都不是特别实用所以本文就不展开介绍了。

总结

LVS的基本原理是利用Linux的netfilter改变数据包的流向以此实现负载均衡。基于性能考虑LVS提供了二种模式，请求和返回数据包都经过Director的NAT模式；请求经过Director返回数据包由Real Server独立返回的是DR和TUN模式（DR和TUN的区别是网络二层可达还是三层可达）。
DR和TUN理论上可能性能更高一些，但是这种假设的前提是——性能是出现在数据包转发，而以目前软硬件的架构而言数据转发已经不成问题了。原因有两点：首先Linux引入的NAPI可以平衡网卡中断模式和Polling的性能问题，所以内核本身的转发能力已经不是1998（LVS设计的时间）的情况，一般而言千兆的网络转发是不成问题的；其次大量的“数据平面加速”方案喷涌而出如果真是数据转发的问题我们有智能网卡、DPDK等方案能很好解决。
那么比较实用的只剩下NAT模式了，但是LVS的NAT模式有一个很大的缺陷——Real Server的网关是指向Director。

LVS NAT的改进

一般面向外部提供服务的集群环境中网络工程师会给我们一个外部IP，它可能是一个公网IP也可能是躲在防火墙后面的“私网IP”。总之只要我们把这个IP地址配置在某个机器上就能正常对外提供服务了。
这种环境中LVS的DR模式、TUN模式显的都比较繁琐（需要满足一定网络条件），所以NAT模式是最合适的，但是LVS中的NAT要求Real Server必须把网关指向Director，这就意味着Real Server之前可以三层可达的网络现在全部不行了（比如之前可以通过网关上网，现在则不行了）
回忆一下问题：当Director发送数据包的时候源地址是客户端IP地址，所以Real Server会把返回数据发送给网关，如果不把Director设置为Real Server的网关那么返回数据就“丢”了。改进方法也呼之欲出了，让Director发送数据包的时候使用DIP而不是客户端的IP地址就可以了。
按道理说通过LVS+SNAT可以实现，遗憾的是LVS和Iptables是不兼容的，LVS内部处理完数据包后Iptables会忽略这个数据包，所以解决办法只剩下两个：

在用户空间实现一个反向代理，比如Nginx；
修改LVS代码重新编译内核

第一种方法操作非常简单，在Director上安装一个反向代理，LVS配置的VIP和DIP保持一致就可以了，比如：

ipvsadm -A -t 192.168.122.100:80 -s rr
ipvsadm -a -t 192.168.122.100:80 -r 192.168.122.101 -m -w 1 
ipvsadm -a -t 192.168.122.100:80 -r 192.168.122.102 -m -w 1

第二种方法就是阿里后来贡献的FullNat模式。

两个疑问

为啥LVS不直接做彻底的NAT而直接使用客户端IP地址呢？改进后的NAT怎么规避这个问题？

这是由于LVS追求的是透明，试想Real Server如何拿到客户端的IP地址？改进后的NAT Real Server只能看到Director的IP地址，客户端的IP地址通过“额外途径”发送。反向代理方案中直接通过应用层的头部（比如HTTP的 x-forwarded-for）;FullNAT方案中则通过TCP的Option带到Real Server。

Linux内核为什么不吸纳FullNAT模式？

是的，FullNAT配置简单速度也不慢所以是非常好的选择。Linux Kernel没有把它合并到内核代码的原因是认为：FullNAT本质上是LVS+SNAT，当我们提到SNAT的时候其实就是在说“用户空间”它不应该属于内核。这是Linux的一大基本原则。https://www.mail-archive.com/[email protected]/msg06046.html 这里你可以看到撕逼过程。

Kubernetes连接外部数据源

Kubernetes架构下比较核心的问题是数据如何persistance,虽然提供了Persistent volumn的方式，但是对于像数据库之类的产品在kubernetes集群环境中运行和管理还是很有难度的，Kubernetes提供了endpoints这种模式让外部的服务映射成内部的服务，这样比较好的解决了集群对外的连接问题，

如果我们去连接外部的一个oracle数据库，具体的步骤如下:

建立endpoints和service.

[root@k8s-master jdbcservice]# cat jdbc-endpoint.yaml 
apiVersion: v1
kind: Endpoints
metadata:
  name: jdbc
subsets:
  - addresses:
    - ip: 10.182.168.244
    ports:
    - port: 1521
      protocol: TCP

为了方便，我们固定了service的集群地址

[root@k8s-master jdbcservice]# cat jdbcservice.yaml 
apiVersion: v1
kind: Service
metadata:
  name: jdbc
spec:
  clusterIP: 10.254.150.201
  ports:
  - port: 1521
    targetPort: 1521
    protocol: TCP

需要注意的是，service和endpoints的名字要相同，另外如果delete了service.再重新建立的时候要再把endpoints建立一遍。

在这个service的表里，我们看到jdbc服务绑在了201这个地址上。

[root@k8s-master jdbcservice]# kubectl get services
NAME            CLUSTER-IP       EXTERNAL-IP   PORT(S)          AGE
helloworldsvc   10.254.43.122    <nodes>       7001:30001/TCP   12m
jdbc            10.254.150.201   <none>        1521/TCP         30m
kubernetes      10.254.0.1       <none>        443/TCP          121d
registry        10.254.174.54    <nodes>       5000:30002/TCP   20h

images的配置

然后对我们的weblogic images进行jdbc的配置。

未分类

点击Test Configuration,如果测试不过，weblogic不允许建立连接池成功.

未分类

在运行pod的节点上运行docker ps找到启动image的容器id.

[root@k8s-node-1 ~]# docker ps
CONTAINER ID        IMAGE                                                        COMMAND                  CREATED             STATUS              PORTS               NAMES
d2c1dc2a2cef        1213-helloworld:v1                                           "startWebLogic.sh"       7 minutes ago       Up 7 minutes                            k8s_weblogichelloworld.9efb3a79_helloworld-service-vfd10_default_6162d68a-9da9-11e7-b746-08002797edef_026d2cc4
85e04042041a        registry.access.redhat.com/rhel7/pod-infrastructure:latest   "/pod"                   7 minutes ago       Up 7 minutes                            k8s_POD.15c40ba1_helloworld-service-vfd10_default_6162d68a-9da9-11e7-b746-08002797edef_b59984a7
96acfd65eb3a        registry                                                     "/entrypoint.sh /etc/"   23 minutes ago      Up 23 minutes                           k8s_registry.71ab5625_registry-7nj8q_default_19ab0b7f-9cff-11e7-bf9d-08002797edef_fb5ae620
63652932256c        registry.access.redhat.com/rhel7/pod-infrastructure:latest   "/pod"                   23 minutes ago      Up 23 minutes                           k8s_POD.100f0b9e_registry-7nj8q_default_19ab0b7f-9cff-11e7-bf9d-08002797edef_98dd7f3f
1ed61c53625f        gcr.io/google_containers/etcd-amd64:2.2.1                    "/usr/local/bin/etcd "   47 minutes ago      Up 47 minutes                           k8s_etcd.bb974d90_kube-dns-v11-x0vr3_kube-system_5dd26461-3ef1-11e7-acf2-08002797edef_7316989c
fb8545a4aba4        gcr.io/google_containers/exechealthz:1.0                     "/exechealthz '-cmd=n"   47 minutes ago      Up 47 minutes                           k8s_healthz.525e4aad_kube-dns-v11-x0vr3_kube-system_5dd26461-3ef1-11e7-acf2-08002797edef_cec4d740
aa6c4caf3fa7        gcr.io/google_containers/skydns:2015-10-13-8c72f8c           "/skydns -machines=ht"   47 minutes ago      Up 47 minutes                           k8s_skydns.96837166_kube-dns-v11-x0vr3_kube-system_5dd26461-3ef1-11e7-acf2-08002797edef_5da89b81
5930dae5b843        registry.access.redhat.com/rhel7/pod-infrastructure:latest   "/pod"                   47 minutes ago      Up 47 minutes                           k8s_POD.4efc54ff_kube-dns-v11-x0vr3_kube-system_5dd26461-3ef1-11e7-acf2-08002797edef_3e3af088

生成新的images

[root@k8s-node-1 ~]# docker commit -m "jdbc" -a "ericnie" d2c1dc2a2cef 1213-helloworld-jdbc:v1
sha256:953e124483d2bcc03b3f46c8e6d935e3746634d78942cc477e31888c8d569171

验证

修改weblogic replication control指向1213-helloworld-jdbc:v1 images,启动后看到连接建立.

weblogic端

未分类

数据库端

数据库端原来的jdbc链接

未分类

Pod完全启动后的连接

未分类

Kubernetes集群中Service的滚动更新

在移动互联网时代，消费者的消费行为已经“全天候化”，为此，商家的业务系统也要保持7×24小时不间断地提供服务以满足消费者的需求。很难想像如今还会有以“中断业务”为前提的服务系统更新升级。如果微信官方发布公告说：每周六晚23:00~次日凌晨2:00进行例行系统升级，不能提供服务，作为用户的你会怎么想、怎么做呢？因此，各个平台在最初设计时就要考虑到服务的更新升级问题，部署在Kubernetes集群中的Service也不例外。

一、预备知识

1、滚动更新Rolling-update

传统的升级更新，是先将服务全部下线，业务停止后再更新版本和配置，然后重新启动并提供服务。这样的模式已经完全不能满足“时代的需要”了。在并发化、高可用系统普及的今天，服务的升级更新至少要做到“业务不中断”。而滚动更新(Rolling-update)恰是满足这一需求的一种系统更新升级方案。

简单来说，滚动更新就是针对多实例服务的一种不中断服务的更新升级方式。一般情况，对于多实例服务，滚动更新采用对各个实例逐个进行单独更新而非同一时刻对所有实例进行全部更新的方式。“滚动更新”的先进之处在于“滚动”这个概念的引入，笔者觉得它至少有以下两点含义：

a) “滚动”给人一种“圆”的映像，表意：持续，不中断。“滚动”的理念是一种趋势，我们常见的“滚动发布”、“持续交付”都是“滚动”理念的应用。与传统的大版本周期性发布/更新相比，”滚动”可以让用户更快、更及时地使用上新Feature，缩短市场反馈周期，同时滚动式的发布和更新又会将对用户体验的影响降到最小化。

b) “滚动”可向前，也可向后。我们可以在更新过程中及时发现“更新”存在的问题，并“向后滚动”，实现更新的回退，可以最大程度上降低每次更新升级的风险。

对于在Kubernetes集群部署的Service来说，Rolling update就是指一次仅更新一个Pod，并逐个进行更新，而不是在同一时刻将该Service下面的所有Pod shutdown，避免将业务中断的尴尬。

2、Service、Deployment、Replica Set、Replication Controllers和Pod之间的关系

对于我们要部署的Application来说，一般是由多个抽象的Service组成。在Kubernetes中，一个Service通过label selector match出一个Pods集合，这些Pods作为Service的endpoint，是真正承载业务的实体。而Pod在集群内的部署、调度、副本数保持则是通过Deployment或ReplicationControllers这些高level的抽象来管理的，下面是一幅示意图：

未分类

新版本的Kubernetes推荐用Deployment替代ReplicationController，在Deployment这个概念下在保持Pod副本数上实际发挥作用的是隐藏在背后的Replica Set。

因此，我们可以看到Kubernetes上Service的rolling update实质上是对Service所match出来的Pod集合的Rolling update，而控制Pod部署、调度和副本调度的却又恰恰是Deployment和replication controller，因此后两者才是kubernetes service rolling update真正要面对的实体。

二、kubectl rolling-update子命令

kubernetes在kubectl cli工具中仅提供了对Replication Controller的rolling-update支持，通过kubectl -help，我们可以查看到下面的命令usage描述：

# kubectl -help
... ...
Deploy Commands:
  rollout        Manage a deployment rollout
  rolling-update Perform a rolling update of the given ReplicationController
  scale          Set a new size for a Deployment, ReplicaSet, Replication Controller, or Job
  autoscale      Auto-scale a Deployment, ReplicaSet, or ReplicationController
... ...

# kubectl help rolling-update
... ...
Usage:
  kubectl rolling-update OLD_CONTROLLER_NAME ([NEW_CONTROLLER_NAME] --image=NEW_CONTAINER_IMAGE | -f
NEW_CONTROLLER_SPEC) [options]
... ...

我们现在来看一个例子，看一下kubectl rolling-update是如何对service下的Pods进行滚动更新的。我们的kubernetes集群有两个版本的Nginx：

# docker images|grep nginx
nginx                                                    1.11.9                     cc1b61406712        2 weeks ago         181.8 MB
nginx                                                    1.10.1                     bf2b4c2d7bf5        4 months ago        180.7 MB

在例子中我们将Service的Pod从nginx 1.10.1版本滚动升级到1.11.9版本。

我们的rc-demo-v0.1.yaml文件内容如下：

apiVersion: v1
kind: ReplicationController
metadata:
  name: rc-demo-nginx-v0.1
spec:
  replicas: 4
  selector:
    app: rc-demo-nginx
    ver: v0.1
  template:
    metadata:
      labels:
        app: rc-demo-nginx
        ver: v0.1
    spec:
      containers:
        - name: rc-demo-nginx
          image: nginx:1.10.1
          ports:
            - containerPort: 80
              protocol: TCP
          env:
            - name: RC_DEMO_VER
              value: v0.1

创建这个replication controller：

# kubectl create -f rc-demo-v0.1.yaml
replicationcontroller "rc-demo-nginx-v0.1" created

# kubectl get pods -o wide
NAME                       READY     STATUS    RESTARTS   AGE       IP             NODE
rc-demo-nginx-v0.1-2p7v0   1/1       Running   0          1m        172.30.192.9   iz2ze39jeyizepdxhwqci6z
rc-demo-nginx-v0.1-9pk3t   1/1       Running   0          1m        172.30.192.8   iz2ze39jeyizepdxhwqci6z
rc-demo-nginx-v0.1-hm6b9   1/1       Running   0          1m        172.30.0.9     iz25beglnhtz
rc-demo-nginx-v0.1-vbxpl   1/1       Running   0          1m        172.30.0.10    iz25beglnhtz

Service manifest文件rc-demo-svc.yaml的内容如下：

apiVersion: v1
kind: Service
metadata:
  name: rc-demo-svc
spec:
  ports:
  - port: 80
    protocol: TCP
  selector:
    app: rc-demo-nginx

创建这个service：

# kubectl create -f rc-demo-svc.yaml
service "rc-demo-svc" created

# kubectl describe svc/rc-demo-svc
Name:            rc-demo-svc
Namespace:        default
Labels:            <none>
Selector:        app=rc-demo-nginx
Type:            ClusterIP
IP:            10.96.172.246
Port:            <unset>    80/TCP
Endpoints:        172.30.0.10:80,172.30.0.9:80,172.30.192.8:80 + 1 more...
Session Affinity:    None
No events.

可以看到之前replication controller创建的4个Pod都被置于rc-demo-svc这个service的下面了，我们来访问一下该服务：

# curl -I http://10.96.172.246:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
Date: Wed, 08 Feb 2017 08:45:19 GMT
Content-Type: text/html
Content-Length: 612
Last-Modified: Tue, 31 May 2016 14:17:02 GMT
Connection: keep-alive
ETag: "574d9cde-264"
Accept-Ranges: bytes

# kubectl exec rc-demo-nginx-v0.1-2p7v0  env
... ...
RC_DEMO_VER=v0.1
... ...

通过Response Header中的Server字段，我们可以看到当前Service pods中的nginx版本为1.10.1；通过打印Pod中环境变量，得到RC_DEMO_VER=v0.1。

接下来，我们来rolling-update rc-demo-nginx-v0.1这个rc，我们的新rc manifest文件rc-demo-v0.2.yaml内容如下：

apiVersion: v1
kind: ReplicationController
metadata:
  name: rc-demo-nginx-v0.2
spec:
  replicas: 4
  selector:
    app: rc-demo-nginx
    ver: v0.2
  template:
    metadata:
      labels:
        app: rc-demo-nginx
        ver: v0.2
    spec:
      containers:
        - name: rc-demo-nginx
          image: nginx:1.11.9
          ports:
            - containerPort: 80
              protocol: TCP
          env:
            - name: RC_DEMO_VER
              value: v0.2

rc-demo-new.yaml与rc-demo-old.yaml有几点不同：rc的name、image的版本以及RC_DEMO_VER这个环境变量的值：

# diff rc-demo-v0.2.yaml rc-demo-v0.1.yaml
4c4
<   name: rc-demo-nginx-v0.2
---
>   name: rc-demo-nginx-v0.1
9c9
<     ver: v0.2
---
>     ver: v0.1
14c14
<         ver: v0.2
---
>         ver: v0.1
18c18
<           image: nginx:1.11.9
---
>           image: nginx:1.10.1
24c24
<               value: v0.2
---
>               value: v0.1

我们开始rolling-update，为了便于跟踪update过程，这里将update-period设为10s，即每隔10s更新一个Pod：

#  kubectl rolling-update rc-demo-nginx-v0.1 --update-period=10s -f rc-demo-v0.2.yaml
Created rc-demo-nginx-v0.2
Scaling up rc-demo-nginx-v0.2 from 0 to 4, scaling down rc-demo-nginx-v0.1 from 4 to 0 (keep 4 pods available, don't exceed 5 pods)
Scaling rc-demo-nginx-v0.2 up to 1
Scaling rc-demo-nginx-v0.1 down to 3
Scaling rc-demo-nginx-v0.2 up to 2
Scaling rc-demo-nginx-v0.1 down to 2
Scaling rc-demo-nginx-v0.2 up to 3
Scaling rc-demo-nginx-v0.1 down to 1
Scaling rc-demo-nginx-v0.2 up to 4
Scaling rc-demo-nginx-v0.1 down to 0
Update succeeded. Deleting rc-demo-nginx-v0.1
replicationcontroller "rc-demo-nginx-v0.1" rolling updated to "rc-demo-nginx-v0.2"

从日志可以看出：kubectl rolling-update逐渐增加 rc-demo-nginx-v0.2的scale并同时逐渐减小 rc-demo-nginx-v0.1的scale值直至减到0。

在升级过程中，我们不断访问rc-demo-svc，可以看到新旧Pod版本共存的状态，服务并未中断：

# curl -I http://10.96.172.246:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
... ...

# curl -I http://10.96.172.246:80
HTTP/1.1 200 OK
Server: nginx/1.11.9
... ...

# curl -I http://10.96.172.246:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
... ...

更新后的一些状态信息：

# kubectl get rc
NAME                 DESIRED   CURRENT   READY     AGE
rc-demo-nginx-v0.2   4         4         4         5m

# kubectl get pods
NAME                       READY     STATUS    RESTARTS   AGE
rc-demo-nginx-v0.2-25b15   1/1       Running   0          5m
rc-demo-nginx-v0.2-3jlpk   1/1       Running   0          5m
rc-demo-nginx-v0.2-lcnf9   1/1       Running   0          6m
rc-demo-nginx-v0.2-s7pkc   1/1       Running   0          5m

# kubectl exec rc-demo-nginx-v0.2-25b15  env
... ...
RC_DEMO_VER=v0.2
... ...

官方文档说kubectl rolling-update是由client side实现的rolling-update，这是因为roll-update的逻辑都是由kubectl发出N条命令到APIServer完成的，在kubectl的代码中我们可以看到这点：

//https://github.com/kubernetes/kubernetes/blob/master/pkg/kubectl/cmd/rollingupdate.go
... ...
func RunRollingUpdate(f cmdutil.Factory, out io.Writer, cmd *cobra.Command, args []string, options *resource.FilenameOptions) error {
    ... ...
    err = updater.Update(config)
    if err != nil {
        return err
    }
    ... ...
}

//https://github.com/kubernetes/kubernetes/blob/master/pkg/kubectl/rolling_updater.go
func (r *RollingUpdater) Update(config *RollingUpdaterConfig) error {
    ... ...
    // Scale newRc and oldRc until newRc has the desired number of replicas and
    // oldRc has 0 replicas.
    progressDeadline := time.Now().UnixNano() + config.Timeout.Nanoseconds()
    for newRc.Spec.Replicas != desired || oldRc.Spec.Replicas != 0 {
        // Store the existing replica counts for progress timeout tracking.
        newReplicas := newRc.Spec.Replicas
        oldReplicas := oldRc.Spec.Replicas

        // Scale up as much as possible.
        scaledRc, err := r.scaleUp(newRc, oldRc, desired, maxSurge, maxUnavailable, scaleRetryParams, config)
        if err != nil {
            return err
        }
        newRc = scaledRc
    ... ...
}

在rolling_updater.go中Update方法使用一个for循环完成了逐步减少old rc的replicas和增加new rc的replicas的工作，直到new rc到达期望值，old rc的replicas变为0。

通过kubectl rolling-update实现的滚动更新有很多不足：

由kubectl实现，很可能因为网络原因导致update中断；
需要创建一个新的rc，名字与要更新的rc不能一样；虽然这个问题不大，但实施起来也蛮别扭的；
回滚还需要执行rolling-update，只是用的老版本的rc manifest文件；
service执行的rolling-update在集群中没有记录，后续无法跟踪rolling-update历史。

不过，由于Replication Controller已被Deployment这个抽象概念所逐渐代替，下面我们来考虑如何实现Deployment的滚动更新以及deployment滚动更新的优势。

三、Deployment的rolling-update

kubernetes Deployment是一个更高级别的抽象，就像文章开头那幅示意图那样，Deployment会创建一个Replica Set，用来保证Deployment中Pod的副本数。由于kubectl rolling-update仅支持replication controllers，因此要想rolling-updata deployment中的Pod，你需要修改Deployment自己的manifest文件并应用。这个修改会创建一个新的Replica Set，在scale up这个Replica Set的Pod数的同时，减少原先的Replica Set的Pod数，直至zero。而这一切都发生在Server端，并不需要kubectl参与。

我们同样来看一个例子。我们建立第一个版本的deployment manifest文件：deployment-demo-v0.1.yaml。

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: deployment-demo
spec:
  replicas: 4
  selector:
    matchLabels:
      app: deployment-demo-nginx
  minReadySeconds: 10
  template:
    metadata:
      labels:
        app: deployment-demo-nginx
        version: v0.1
    spec:
      containers:
        - name: deployment-demo
          image: nginx:1.10.1
          ports:
            - containerPort: 80
              protocol: TCP
          env:
            - name: DEPLOYMENT_DEMO_VER
              value: v0.1

创建该deployment：

# kubectl create -f deployment-demo-v0.1.yaml --record
deployment "deployment-demo" created

# kubectl get deployments
NAME              DESIRED   CURRENT   UP-TO-DATE   AVAILABLE   AGE
deployment-demo   4         4         4            0           10s

# kubectl get rs
NAME                         DESIRED   CURRENT   READY     AGE
deployment-demo-1818355944   4         4         4         13s

# kubectl get pods -o wide
NAME                               READY     STATUS    RESTARTS   AGE       IP             NODE
deployment-demo-1818355944-78spp   1/1       Running   0          24s       172.30.0.10    iz25beglnhtz
deployment-demo-1818355944-7wvxk   1/1       Running   0          24s       172.30.0.9     iz25beglnhtz
deployment-demo-1818355944-hb8tt   1/1       Running   0          24s       172.30.192.9   iz2ze39jeyizepdxhwqci6z
deployment-demo-1818355944-jtxs2   1/1       Running   0          24s       172.30.192.8   iz2ze39jeyizepdxhwqci6z

# kubectl exec deployment-demo-1818355944-78spp env
... ...
DEPLOYMENT_DEMO_VER=v0.1
... ...

deployment-demo创建了ReplicaSet：deployment-demo-1818355944，用于保证Pod的副本数。

我们再来创建使用了该deployment中Pods的Service：

# kubectl create -f deployment-demo-svc.yaml
service "deployment-demo-svc" created

# kubectl get service
NAME                  CLUSTER-IP       EXTERNAL-IP   PORT(S)   AGE
deployment-demo-svc   10.109.173.225   <none>        80/TCP    5s
kubernetes            10.96.0.1        <none>        443/TCP   42d

# kubectl describe service/deployment-demo-svc
Name:            deployment-demo-svc
Namespace:        default
Labels:            <none>
Selector:        app=deployment-demo-nginx
Type:            ClusterIP
IP:            10.109.173.225
Port:            <unset>    80/TCP
Endpoints:        172.30.0.10:80,172.30.0.9:80,172.30.192.8:80 + 1 more...
Session Affinity:    None
No events.

# curl -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
... ...

好了，我们看到该service下有四个pods，Service提供的服务也运行正常。

接下来，我们对该Service进行更新。为了方便说明，我们建立了deployment-demo-v0.2.yaml文件，其实你也大可不必另创建文件，直接再上面的deployment-demo-v0.1.yaml文件中修改也行：

# diff deployment-demo-v0.2.yaml deployment-demo-v0.1.yaml
15c15
<         version: v0.2
---
>         version: v0.1
19c19
<           image: nginx:1.11.9
---
>           image: nginx:1.10.1
25c25
<               value: v0.2
---
>               value: v0.1

我们用deployment-demo-v0.2.yaml文件来更新之前创建的deployments中的Pods：

# kubectl apply -f deployment-demo-v0.2.yaml --record
deployment "deployment-demo" configured

apply命令是瞬间接收到apiserver返回的Response并结束的。但deployment的rolling-update过程还在进行：

# kubectl describe deployment deployment-demo
Name:            deployment-demo
... ...
Replicas:        2 updated | 4 total | 3 available | 2 unavailable
StrategyType:        RollingUpdate
MinReadySeconds:    10
RollingUpdateStrategy:    1 max unavailable, 1 max surge
Conditions:
  Type        Status    Reason
  ----        ------    ------
  Available     True    MinimumReplicasAvailable
OldReplicaSets:    deployment-demo-1818355944 (3/3 replicas created)
NewReplicaSet:    deployment-demo-2775967987 (2/2 replicas created)
Events:
  FirstSeen    LastSeen    Count    From                SubObjectPath    Type        Reason            Message
  ---------    --------    -----    ----                -------------    --------    ------            -------
  12m        12m        1    {deployment-controller }            Normal        ScalingReplicaSet    Scaled up replica set deployment-demo-1818355944 to 4
  11s        11s        1    {deployment-controller }            Normal        ScalingReplicaSet    Scaled up replica set deployment-demo-2775967987 to 1
  11s        11s        1    {deployment-controller }            Normal        ScalingReplicaSet    Scaled down replica set deployment-demo-1818355944 to 3
  11s        11s        1    {deployment-controller }            Normal        ScalingReplicaSet    Scaled up replica set deployment-demo-2775967987 to 2

# kubectl get pods
NAME                               READY     STATUS              RESTARTS   AGE
deployment-demo-1818355944-78spp   1/1       Terminating         0          12m
deployment-demo-1818355944-hb8tt   1/1       Terminating         0          12m
deployment-demo-1818355944-jtxs2   1/1       Running             0          12m
deployment-demo-2775967987-5s9qx   0/1       ContainerCreating   0          0s
deployment-demo-2775967987-lf5gw   1/1       Running             0          12s
deployment-demo-2775967987-lxbx8   1/1       Running             0          12s
deployment-demo-2775967987-pr0hl   0/1       ContainerCreating   0          0s

# kubectl get rs
NAME                         DESIRED   CURRENT   READY     AGE
deployment-demo-1818355944   1         1         1         12m
deployment-demo-2775967987   4         4         4         17s

我们可以看到这个update过程中ReplicaSet的变化，同时这个过程中服务并未中断，只是新旧版本短暂地交错提供服务：

# curl -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.11.9
... ...

# curl -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
... ...

# curl -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
... ...

最终所有Pod被替换为了v0.2版本：

kubectl exec deployment-demo-2775967987-5s9qx env
... ...
DEPLOYMENT_DEMO_VER=v0.2
... ...

# curl -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.11.9
... ...

我们发现deployment的create和apply命令都带有一个–record参数，这是告诉apiserver记录update的历史。通过kubectl rollout history可以查看deployment的update history：

#  kubectl rollout history deployment deployment-demo
deployments "deployment-demo"
REVISION    CHANGE-CAUSE
1        kubectl create -f deployment-demo-v0.1.yaml --record
2        kubectl apply -f deployment-demo-v0.2.yaml --record

如果没有加“–record”，那么你得到的历史将会类似这样的结果：

#  kubectl rollout history deployment deployment-demo
deployments "deployment-demo"
REVISION    CHANGE-CAUSE
1        <none>

同时，我们会看到old ReplicaSet并未被删除：

# kubectl get rs
NAME                         DESIRED   CURRENT   READY     AGE
deployment-demo-1818355944   0         0         0         25m
deployment-demo-2775967987   4         4         4         13m

这些信息都存储在server端，方便回退！

Deployment下Pod的回退操作异常简单，通过rollout undo即可完成。rollout undo会将Deployment回退到record中的上一个revision（见上面rollout history的输出中有revision列）：

# kubectl rollout undo deployment deployment-demo
deployment "deployment-demo" rolled back

rs的状态又颠倒回来：

# kubectl get rs
NAME                         DESIRED   CURRENT   READY     AGE
deployment-demo-1818355944   4         4         4         28m
deployment-demo-2775967987   0         0         0         15m

查看update历史:

# kubectl rollout history deployment deployment-demo
deployments "deployment-demo"
REVISION    CHANGE-CAUSE
2        kubectl apply -f deployment-demo-v0.2.yaml --record
3        kubectl create -f deployment-demo-v0.1.yaml --record

可以看到history中最多保存了两个revision记录（这个Revision保存的数量应该可以设置）。

四、通过API实现的deployment rolling-update

我们的最终目标是通过API来实现service的rolling-update。Kubernetes提供了针对deployment的Restful API，包括：create、read、replace、delete、patch、rollback等。从这些API的字面意义上看，patch和rollback很可能符合我们的需要，我们需要验证一下。

我们将deployment置为v0.1版本，即：image: nginx:1.10.1，DEPLOYMENT_DEMO_VER=v0.1。然后我们尝试通过patch API将deployment升级为v0.2版本，由于patch API仅接收json格式的body内容，我们将 deployment-demo-v0.2.yaml转换为json格式：deployment-demo-v0.2.json。patch是局部更新，这里偷个懒儿，直接将全部deployment manifest内容发给了APIServer，让server自己做merge^0^。

执行下面curl命令：

# curl -H 'Content-Type:application/strategic-merge-patch+json' -X PATCH --data @deployment-demo-v0.2.json http://localhost:8080/apis/extensions/v1beta1/namespaces/default/deployments/deployment-demo

这个命令输出一个merge后的Deployment json文件，由于内容太多，这里就不贴出来了，内容参见：patch-api-output.txt。

跟踪命令执行时的deployment状态，我们可以看到该命令生效了：新旧两个rs的Scale值在此消彼长，两个版本的Pod在交替提供服务。

# kubectl get rs
NAME                         DESIRED   CURRENT   READY     AGE
deployment-demo-1818355944   3         3         3         12h
deployment-demo-2775967987   2         2         2         12h

# curl  -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
... ...

# curl  -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.11.9
... ...

# curl  -I http://10.109.173.225:80
HTTP/1.1 200 OK
Server: nginx/1.10.1
... ...

不过通过这种方式update后，通过rollout history查看到的历史就有些“不那么精确了”：

#kubectl rollout history deployment deployment-demo
deployments "deployment-demo"
REVISION    CHANGE-CAUSE
8       kubectl create -f deployment-demo-v0.1.yaml --record
9        kubectl create -f deployment-demo-v0.1.yaml --record

目前尚无好的方法。但rolling update的确是ok了。

Patch API支持三种类型的Content-type：json-patch+json、strategic-merge-patch+json和merge-patch+json。对于后面两种，从测试效果来看，都一样。但json-patch+json这种类型在测试的时候一直报错：

# curl -H 'Content-Type:application/json-patch+json' -X PATCH --data @deployment-demo-v0.2.json http://localhost:8080/apis/extensions/v1beta1/namespaces/default/deployments/deployment-demo
{
  "kind": "Status",
  "apiVersion": "v1",
  "metadata": {},
  "status": "Failure",
  "message": "json: cannot unmarshal object into Go value of type jsonpatch.Patch",
  "code": 500
}

kubectl patch子命令似乎使用的是strategic-merge-patch+json。源码中也没有过多说明三种方式的差别：

//pkg/kubectl/cmd/patch.go
func getPatchedJSON(patchType api.PatchType, originalJS, patchJS []byte, obj runtime.Object) ([]byte, error) {
    switch patchType {
    case api.JSONPatchType:
        patchObj, err := jsonpatch.DecodePatch(patchJS)
        if err != nil {
            return nil, err
        }
        return patchObj.Apply(originalJS)

    case api.MergePatchType:
        return jsonpatch.MergePatch(originalJS, patchJS)

    case api.StrategicMergePatchType:
        return strategicpatch.StrategicMergePatchData(originalJS, patchJS, obj)

    default:
        // only here as a safety net - go-restful filters content-type
        return nil, fmt.Errorf("unknown Content-Type header for patch: %v", patchType)
    }
}

// DecodePatch decodes the passed JSON document as an RFC 6902 patch.

// MergePatch merges the patchData into the docData.

// StrategicMergePatch applies a strategic merge patch. The patch and the original document
// must be json encoded content. A patch can be created from an original and a modified document
// by calling CreateStrategicMergePatch.

接下来，我们使用deployment rollback API实现deployment的rollback。我们创建一个deployment-demo-rollback.json文件作为请求的内容：

//deployment-demo-rollback.json
{
        "name" : "deployment-demo",
        "rollbackTo" : {
                "revision" : 0
        }
}

revision:0 表示回退到上一个revision。执行下面命令实现rollback：

# curl -H 'Content-Type:application/json' -X POST --data @deployment-demo-rollback.json http://localhost:8080/apis/extensions/v1beta1/namespaces/default/deployments/deployment-demo/rollback
{
  "kind": "Status",
  "apiVersion": "v1",
  "metadata": {},
  "status": "Failure",
  "message": "rollback request for deployment "deployment-demo" succeeded",
  "code": 200
}

# kubectl describe deployment/deployment-demo
... ...
Events:
  FirstSeen    LastSeen    Count    From                SubObjectPath    Type        Reason            Message
  ---------    --------    -----    ----                -------------    --------    ------            -------
... ...
 27s        27s        1    {deployment-controller }            Normal        DeploymentRollback    Rolled back deployment "deployment-demo" to revision 1
... ...

通过查看deployment状态可以看出rollback成功了。但这个API的response似乎有些bug，明明是succeeded了(code:200)，但status却是”Failure”。

如果你在patch或rollback过程中还遇到什么其他问题，可以通过kubectl describe deployment/deployment-demo 查看输出的Events中是否有异常提示。

五、小结

从上面的实验来看，通过Kubernetes提供的API是可以实现Service中Pods的rolling-update的，但这更适用于无状态的Service。对于那些有状态的Service（通过PetSet或是1.5版本后的Stateful Set实现的），这么做是否还能满足要求还不能确定。由于暂时没有环境，这方面尚未测试。

上述各个manifest的源码可以在这里下载到。

在 Kubernetes 集群中运行 WordPress

作为一名开发者，我会尝试留意那些我可能不会每天使用的技术的进步。了解这些技术至关重要，因为它们可能会间接影响到我的工作。比如由 Docker 推动的、近期正在兴起的容器化技术，可用于上规模地托管 Web 应用。从技术层面来讲，我并不是一个 DevOps，但当我每天构建 Web 应用时，多去留意这些技术如何去发展，会对我有所裨益。

这种进步的一个绝佳的例子，是近一段时间高速发展的容器编排平台。它允许你轻松地部署、管理容器化应用，并对它们的规模进行调整。目前看来，容器编排的流行工具有 Kubernetes （来自 Google），Docker Swarm 和 Apache Mesos。如果你想较好的了解上面那些技术以及它们的区别，我推荐你看一下这篇文章。

在这篇文章中，我们将会从一些简单的操作开始，了解一下 Kubernetes 平台，看看如何将一个 WordPress 网站部署在本地机器上的一个单节点集群中。

安装 Kubernetes

在 Kubernetes 文档中有一个很好的互动教程，涵盖了很多东西。但出于本文的目的，我只会介绍在 MacOS 中 Kuberentes 的安装和使用。

我们要做的第一件事是在你的本地主机中安装 Kubernetes。我们将使用一个叫做 MiniKube 的工具，它专门用于在你的机器上方便地设置一个用于测试的 Kubernetes 集群。

根据 Minikube 文档，在我们开始之前，有一些先决条件。首先要保证你已经安装了一个 Hypervisor （我将会使用 Virtualbox）。接下来，我们需要安装 Kubernetes 命令行工具（也就是 kubectl）。如果你在用 Homebrew，这一步非常简单，只需要运行命令：

$ brew install kubectl

现在我们可以真正安装 Minikube 了：

$ curl -Lo minikube https://storage.googleapis.com/minikube/releases/v0.21.0/minikube-darwin-amd64 && chmod +x minikube && sudo mv minikube /usr/local/bin/

最后，我们要启动 Minicube 创建一个虚拟机，来作为我们的单节点 Kubernetes 集群。现在我要说一点：尽管我们在本文中只在本地运行它，但是在真正的服务器上运行 Kubernetes 集群时，后面提到的大多数概念都会适用。在多节点集群上，“主节点”将负责管理其它工作节点（虚拟机或物理服务器），并且 Kubernetes 将会在集群中自动进行容器的分发和调度。

$ minikube start --vm-driver=virtualbox

安装 Helm

现在，本机中应该有一个正在运行的（单节点）Kubernetes 集群了。我们现在可以用任何方式来与 Kubernetes 交互。如果你想现在可以体验一下，我觉得 kubernetesbyexample.com 可以很好地向你介绍 Kubernetes 的概念和术语。

虽然我们可以手动配置这些东西，但实际上我们将会使用另外的工具，来将我们的 WordPress 应用部署到 Kubernetes 集群中。Helm 被称为“Kubernetes 的包管理工具”，它可以让你轻松地在你的集群中部署预构建的软件包，也就是“图表chart”。你可以把图表看做一组专为特定应用（如 WordPress）而设计的容器定义和配置。首先我们在本地主机上安装 Helm：

$ brew install kubernetes-helm

然后我们需要在集群中安装 Helm。幸运的是，只需要运行下面的命令就好：

$ helm init

安装 WordPress

现在 Helm 已经在我们的集群中运行了，我们可以安装 WordPress 图表。运行：

$ helm install --namespace wordpress --name wordpress --set serviceType=NodePort stable/wordpress

这条命令将会在容器中安装并运行 WordPress，并在容器中运行 MariaDB 作为数据库。它在 Kubernetes 中被称为“Pod”。一个 Pod 基本上可视为一个或多个应用程序容器和这些容器的一些共享资源（例如存储卷，网络等）的组合的抽象。

我们需要给这个部署一个名字和一个命名空间，以将它们组织起来并便于查找。我们同样会将 serviceType 设置为 NodePort 。这一步非常重要，因为在默认设置中，服务类型会被设置为 LoadBalancer。由于我们的集群现在没有负载均衡器，所以我们将无法在集群外访问我们的 WordPress 站点。

在输出数据的最后一部分，你会注意到一些关于访问你的 WordPress 站点的有用的命令。运行那些命令，你可以获取到我们的 WordPress 站点的外部 IP 地址和端口：

$ export NODE_PORT=$(kubectl get --namespace wordpress -o jsonpath="{.spec.ports[0].nodePort}" services wordpress-wordpress)
$ export NODE_IP=$(kubectl get nodes --namespace wordpress -o jsonpath="{.items[0].status.addresses[0].address}")
$ echo http://$NODE_IP:$NODE_PORT/admin

你现在访问刚刚生成的 URL（忽略 /admin 部分），就可以看到 WordPress 已经在你的 Kubernetes 集群中运行了！

扩展 WordPress

Kubernetes 等服务编排平台的一个伟大之处，在于它将应用的扩展和管理变得易如反掌。我们看一下应用的部署状态：

$ kubectl get deployments --namespace=wordpress

未分类

可以看到，我们有两个部署，一个是 Mariadb 数据库，一个是 WordPress 本身。现在，我们假设你的 WordPress 开始承载大量的流量，所以我们想将这些负载分摊在多个实例上。我们可以通过一个简单的命令来扩展 wordpress-wordpress 部署：

$ kubectl scale --replicas 2 deployments wordpress-wordpress --namespace=wordpress

再次运行 kubectl get deployments，我们现在应该会看到下面的场景：

未分类

你刚刚扩大了你的 WordPress 站点规模！超级简单，对不对？现在我们有了多个 WordPress 容器，可以在它们之中对流量进行负载均衡。想了解 Kubernetes 扩展的更多信息，参见这篇指南。

高可用

Kubernetes 等平台的的另一大特色在于，它不单单能进行方便的扩展，还可以通过自愈组件来提供高可用性。假设我们的一个 WordPress 部署因为某些原因失效了，那 Kubernetes 会立刻自动替换掉这个部署。我们可以通过删除我们 WordPress 部署的一个 pod 来模拟这个过程。

首先运行命令，获取 pod 列表：

$ kubectl get pods --namespace=wordpress

未分类

然后删除其中一个 pod：

$ kubectl delete pod wordpress-wordpress-876183909-jqc8s --namespace=wordpress

如果你再次运行 kubectl get pods 命令，应该会看到 Kubernetes 立刻换上了新的 pod （3l167）。

未分类

更进一步

我们只是简单了解了 Kubernetes 能完成工作的表面。如果你想深入研究，我建议你查看以下功能：

平行扩展
自愈
自动更新及回滚
密钥管理

你在容器平台上运行过 WordPress 吗？有没有使用过 Kubernetes（或其它容器编排平台），有没有什么好的技巧？你通常会怎么扩展你的 WordPress 站点？请在评论中告诉我们。

Kubernetes之蓝绿部署

【编者的话】毋庸置疑，Kubernetes目前已成为业内最炙手可热的容器编排框架。本文主要讲讲怎么用Kubernetes进行蓝绿部署以及如何自动化实现蓝绿部署。更多Kubernetes知识请关注DockOne其他文章。

对于那些有更多热情想投入其中的朋友，我已经在GitHub上上传了一个教程和一些示例清单。请访问https://github.com/IanLewis/ku … orial。

Kubernetes有一个非常棒的内置功能即部署（Deployments）。当您将应用程序更新到一个新版本时，部署功能能够帮您对容器进行滚动更新。滚动更新是更新应用程序的一种很好的方法，因为您的应用程序在更新期间使用的资源数量，基本和不更新时所使用的资源相同，而且滚动更新过程中对性能和可用性影响最小。

尽管如此，仍然有许多老式的应用程序在滚动更新中不能很好地运行。一些应用程序只需要部署一个新版本，并需要立即切到这个版本。因此，我们需要执行蓝/绿部署。在进行蓝/绿部署时，应用程序的一个新副本（绿）将与现有版本（蓝）一起部署。然后更新应用程序的入口/路由器以切换到新版本（绿）。然后，您需要等待旧（蓝）版本来完成所有发送给它的请求，但是大多数情况下，应用程序的流量将一次更改为新版本。

未分类

Kubernetes不支持内置的蓝/绿部署。目前最好的方式是创建新的部署，然后更新应用程序的服务以指向新的部署。接下来让我们来看看这是啥意思。

蓝部署

Kubernetes部署指定一个应用程序的一组实例。在幕后，它创建一个副本，该副本负责保持指定数量的实例运行。

未分类

我们可以通过将以下yaml保存到blue.yaml文件中来创建我们的“蓝色”部署。

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
name: nginx-1.10
spec:
replicas: 3
template:
metadata:
  labels:
    name: nginx
    version: "1.10"
spec:
  containers: 
    - name: nginx
      image: nginx:1.10
      ports:
        - name: http
          containerPort: 80

然后可以使用kubectl命令创建部署。

$ kubectl apply -f blue.yaml

一旦我们进行了部署，我们可以通过创建一个服务来提供访问部署实例的方法。服务与部署分离，这意味着您不必在部署时明确指向服务。您需要做的是指定一个标签选择器，它的主要作用是列出构成服务的pods。当你使用部署时，通常会将其设置为与部署的pods相匹配。

在这种情况下，我们有两个标签，name=nginx和version=1.10。我们将这些设置为下面的服务的标签选择器。将下面的内容保存到service.yaml。

apiVersion: v1
kind: Service
metadata: 
name: nginx
labels: 
name: nginx
spec:
ports:
- name: http
  port: 80
  targetPort: 80
selector: 
name: nginx
version: "1.10"
type: LoadBalancer

创建服务将创建一个可在集群外访问的负载均衡器。

$ kubectl apply -f service.yaml

现在我们看看已经部署的服务，如下图。

未分类

您可以测试该服务是否可访问并获取该版本。

$ EXTERNAL_IP = $（ kubectl get svc nginx -o jsonpath = “{.status.loadBalancer.ingress [*]。ip}” ） 
$ curl -s http：// $ EXTERNAL_IP / version | grep nginx

创建绿部署

对于“绿”部署，我们将部署“蓝”部署并行的新部署。如果以下是

green.yaml……
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
name: nginx-1.11
spec:
replicas: 3
template:
metadata:
  labels:
    name: nginx
    version: "1.11"
spec:
  containers: 
    - name: nginx
      image: nginx:1.11
      ports:
        - name: http
          containerPort: 80

……我可以像这样创建新的部署。

$ kubectl apply -f green.yaml

现在我有两个部署，但服务仍然指向“蓝”部署。接下来我们要怎么做呢？

未分类

更新应用程序

要切换到“绿”部署，我们将更新服务的选择器。编辑service.yaml并将选择器版本更改为“1.11”。这将使它与“绿”部署中的pods匹配。

apiVersion: v1
kind: Service
metadata: 
name: nginx
labels: 
name: nginx
spec:
ports:
- name: http
  port: 80
  targetPort: 80
selector: 
name: nginx
version: "1.11"
type: LoadBalancer

执行下面的命令将更新现有的nginx服务。

$ kubectl apply -f service.yaml

现在我们再看看已经部署的，如下图。

未分类

更新服务的选择器将立即被应用，因此您应该看到新版本的nginx正在提供服务。

$ EXTERNAL_IP = $（ kubectl get svc nginx -o jsonpath = “{.status.loadBalancer.ingress [*]。ip}” ） 
$ curl -s http：// $ EXTERNAL_IP / version | grep nginx

自动化

您可以通过一些脚本来自动化跑您的蓝/绿部署。以下脚本将使用服务的名称，要部署的版本以及绿色部署的yaml文件的路径，并使用kubectl运行完整的蓝/绿部署，以从API中输出原始JSON，并使用jq进行解析。通过status.conditions在更新服务定义之前检查部署对象，等待绿部署准备就绪。

脚本为简单起见做出了一些假设，例如期望部署的名称为形式 – 并且存在用于选择器的name和version标签。kubectl是超级灵活的，你可以用它写你自己需要的任何东东。

#!/bin/bash
bg-deploy.sh <servicename> <version> <green-deployment.yaml>

Deployment name should be <service>-<version>

DEPLOYMENTNAME=$1-$2
SERVICE=$1
VERSION=$2
DEPLOYMENTFILE=$3

kubectl apply -f $DEPLOYMENTFILE
Wait until the Deployment is ready by checking the MinimumReplicasAvailable condition.

READY=$(kubectl get deploy $DEPLOYMENTNAME -o json | jq '.status.conditions[] | select(.reason == "MinimumReplicasAvailable") | .status' | tr -d '"')
while [[ "$READY" != "True" ]]; do
READY=$(kubectl get deploy $DEPLOYMENTNAME -o json | jq '.status.conditions[] | select(.reason == "MinimumReplicasAvailable") | .status' | tr -d '"')
sleep 5
done
Update the service selector with the new version

kubectl patch svc $SERVICE -p "{"spec":{"selector": {"name": "${SERVICE}", "version":"${VERSION}"}}}"
echo "Done."

最后，真心希望Kubernetes可以原生支持蓝/绿部署，但这美好时刻来临之前，您可以通过上面的方式来实现自动化。如需要联系那些关心Kubernetes应用程序部署的童鞋，请查看Kubernetes Slack中的#sig-apps频道。

k8s基于hpa实现pod弹性扩容

要使用hpa，第一步是安装heapster（下面的10.135.19.77换成自己k8s可以访问到的ip）

wget https://github.com/kubernetes/heapster/archive/master.zip  
unzip master.zip  
cd heapster-master/

sed -i "s/gcr.io/google_containers/heapster-grafana-amd64:v4.4.3/index.tenxcloud.com/jimmy/heapster-grafana-amd64:v4.0.2/g" deploy/kube-config/influxdb/grafana.yaml

sed -i "s/gcr.io/google_containers/heapster-amd64:v1.4.0/index.tenxcloud.com/jimmy/heapster-amd64:v1.3.0-beta.1/g" deploy/kube-config/influxdb/heapster.yaml

sed -i "s/https://kubernetes.default/http://10.135.19.77:8080?inClusterConfig=false&useServiceAccount=false/g" deploy/kube-config/influxdb/heapster.yaml

sed -i "s/monitoring-influxdb.kube-system.svc/10.135.19.77/g" deploy/kube-config/influxdb/heapster.yaml

sed -i "s/gcr.io/google_containers/heapster-influxdb-amd64:v1.3.3/index.tenxcloud.com/jimmy/heapster-influxdb-amd64:v1.1.1/g" deploy/kube-config/influxdb/influxdb.yaml


/bin/bash deploy/kube.sh start

编写测试例子

编写文件a.yaml

apiVersion: extensions/v1beta1  
kind: Deployment  
metadata:  
  name: my-app
spec:  
  replicas: 2
  template:
    metadata:
      labels:
        app: my-app
    spec:
      containers:
      - name: my-app
        image: registry.alauda.cn/yubang/paas_base_test
        ports:
        - containerPort: 80
        command: ["/bin/bash", "/var/start.sh"] 
        resources:  
          limits:  
            cpu: 0.01  
            memory: 64Mi

编写文件b.yaml

apiVersion: v1  
kind: Service  
metadata:  
  name: my-app-svc
  labels:
    app: my-app
spec:  
  ports:
  - port: 80
    targetPort: 80
    nodePort: 30964
  type: NodePort
  selector:
    app: my-app

编写文件c.yaml

apiVersion: autoscaling/v1  
kind: HorizontalPodAutoscaler  
metadata:  
  name: my-app-hpa
  namespace: default
spec:  
  scaleTargetRef:
    apiVersion: extensions/v1beta1
    kind: Deployment
    name: my-app
  minReplicas: 1
  maxReplicas: 10
  targetCPUUtilizationPercentage: 5

启动服务

kubectl apply -f a.yaml --validate  
kubectl apply -f b.yaml --validate  
kubectl apply -f c.yaml --validate

查看是否正常运行

kubectl get horizontalpodautoscaler

让外部网络访问K8S service的四种方式

本文基于kubernetes 1.5.2版本编写

kube-proxy+ClusterIP

kubernetes版本大于或者等于1.2时，配置：

修改master的/etc/kubernetes/proxy，把KUBE_PROXY_ARGS=”“改为KUBE_PROXY_ARGS=”–proxy-mode=userspace”
重启kube-proxy服务
在核心路由设备或者源主机上添加一条路由，访问cluster IP段的路由指向到master上。

kubernetes版本小于1.2时，直接添加路由

未分类

负载均衡器+NodePort

部署一个负载均衡器（nginx、keepalive等）

未分类

Ingress

Ingress是一种HTTP方式的路由转发机制，由Ingress Controller和HTTP代理服务器组合而成。Ingress Controller实时监控Kubernetes API，实时更新HTTP代理服务器的转发规则。HTTP代理服务器有GCE Load-Balancer、HaProxy、Nginx等开源方案。详细说明请见http://blog.csdn.net/liyingke112/article/details/77066814

未分类

loadbalance

LoadBalancer在NodePort基础上，K8S可以请求底层云平台创建一个负载均衡器，将每个Node作为后端，进行服务分发。该模式需要底层云平台（例如GCE）支持。

K8S APISERVER源码: 服务启动

基于版本 1.6.7

启动流程

未分类

cmd/kube-apiserver/apiserver.go

func main() {
   app.Run(s)
}

cmd/kube-apiserver/app/server.go

func Run(s *options.ServerRunOptions) error {
    // 构建master配置信息
    config, sharedInformers, err := BuildMasterConfig(s)
    // 调用RunServer
    return RunServer(config, sharedInformers, wait.NeverStop)
}

func RunServer(config *master.Config, sharedInformers informers.SharedInformerFactory, stopCh <-chan struct{}) error {
    // 执行相关初始化
    m, err := config.Complete().New()     // => TO: Container初始化
    // 启动
    return m.GenericAPIServer.PrepareRun().Run(stopCh)  // => next
}

vendor/k8s.io/apiserver/pkg/server/genericapiserver.go

启动主体函数都在这个文件中, 绑定地址/端口号, 并最终启动

func (s preparedGenericAPIServer) Run(stopCh <-chan struct{}) error {
    s.NonBlockingRun(stopCh)
}

func (s preparedGenericAPIServer) NonBlockingRun(stopCh <-chan struct{}) error {
    s.serveSecurely(internalStopCh)
    // or
    s.serveInsecurely(internalStopCh) // => next
}

vendor/k8s.io/apiserver/pkg/server/serve.go

func (s *GenericAPIServer) serveInsecurely(stopCh <-chan struct{}) error {
    insecureServer := &http.Server{
        Addr:           s.InsecureServingInfo.BindAddress,
        Handler:        s.InsecureHandler,   // s.Hnalder for secure
        MaxHeaderBytes: 1 << 20,
    }
   runServer(insecureServer, s.InsecureServingInfo.BindNetwork, stopCh) // => next
}


func runServer(server *http.Server, network string, stopCh <-chan struct{}) (int, error) {
    go func() {
        for {
            var listener net.Listener
            listener = tcpKeepAliveListener{ln.(*net.TCPListener)}
            // *http.Server
            err := server.Serve(listener)
            }
    }()
}

Container初始化

cmd/kube-apiserver/app/server.go

func RunServer(config *master.Config, sharedInformers informers.SharedInformerFactory, stopCh <-chan struct{}) error {
    // 执行相关初始化
    m, err := config.Complete().New()     // => TO: Container初始化
    // 启动
    return m.GenericAPIServer.PrepareRun().Run(stopCh)  // => next
}

kubernetes/pkg/master/master.go

func (c completedConfig) New() (*Master, error) {
   // m.GenericAPIServer.HandlerContainer = APIContainer,   APIContainer.Container =  restful.NewContainer()
    s, err := c.Config.GenericConfig.SkipComplete().New() // completion is done in Complete, no need for a second time
   m := &Master{
        GenericAPIServer: s,
    }
}

vendor/k8s.io/apiserver/pkg/server/config.go

到这里, 完成了 s.Handler, s.InsecureHandler 的初始化

func (c completedConfig) New() (*GenericAPIServer, error) {
  s := &GenericAPIServer{
  }
  // s.HandlerContainer = APIContainer
    s.HandlerContainer = mux.NewAPIContainer(http.NewServeMux(), c.Serializer)  // => next 1

  // 生成 Handler
    s.Handler, s.InsecureHandler = c.BuildHandlerChainsFunc(s.HandlerContainer.ServeMux, c.Config)  // => next 2
}

1: vendor/k8s.io/apiserver/pkg/server/mux/container.go

新建一个APIContainer, 包含

// NewAPIContainer constructs a new container for APIs
func NewAPIContainer(mux *http.ServeMux, s runtime.NegotiatedSerializer) *APIContainer {
    c := APIContainer{
        // 新建一个Container
        Container: restful.NewContainer(),
        NonSwaggerRoutes: PathRecorderMux{
            mux: mux,
        },
        UnlistedRoutes: mux,
    }
    // 配置 http.ServerMux
    c.Container.ServeMux = mux
    // 配置路由方式, 使用CurlyRouter
    c.Container.Router(restful.CurlyRouter{}) // e.g. for proxy/{kind}/{name}/{*}
    return &c
}

2: vendor/k8s.io/apiserver/pkg/server/config.go

type Config struct {
    BuildHandlerChainsFunc func(apiHandler http.Handler, c *Config) (secure, insecure http.Handler)
}


func NewConfig() *Config {
    return &Config{
            BuildHandlerChainsFunc:      DefaultBuildHandlerChain,
    }
}


func DefaultBuildHandlerChain(apiHandler http.Handler, c *Config) (secure, insecure http.Handler) {
    return generic(protect(apiHandler)), generic(audit(apiHandler)) // add filters to handler
}

注意, 这里传递的参数是: s.HandlerContainer.ServeMux, DefaultBuildHandlerChain的参数是apiHandler http.Handler, 前者包含后者interface定义的方法.

net/http/server.go

type Handler interface {
        ServeHTTP(ResponseWriter, *Request)
}

// ServeHTTP dispatches the request to the handler whose
// pattern most closely matches the request URL.
func (mux *ServeMux) ServeHTTP(w ResponseWriter, r *Request) {
    if r.RequestURI == "*" {
        if r.ProtoAtLeast(1, 1) {
            w.Header().Set("Connection", "close")
        }
        w.WriteHeader(StatusBadRequest)
        return
    }
    h, _ := mux.Handler(r)
    h.ServeHTTP(w, r)
}

未分类

初始化后, Hnalder 以及 InsecureHandler赋值Container, 然后在new Server前, 将handler放入

&http.Server{
        Addr:           s.InsecureServingInfo.BindAddress,
        Handler:        s.InsecureHandler,   // s.Hanlder for secure
        MaxHeaderBytes: 1 << 20,
}