2018年1月 – 第25页 – Linux系统运维日志

老薛教你如何隐藏Apache的版本号

为什么要隐藏Apache的版本号？

未分类

因为网络上的一些黑客会通过apache暴露出来的版本信息有针对性的入侵，为了服务器的安全，所以我们在部署完apache软件之后，首要做的就是关闭apache的版本等信息的显示功能。具体操作配置如下：

一、隐藏Apache信息

1.1 主配置中启用httpd-default.conf

vim  /application/apache/conf/httpd.conf
#找到httpd-default.conf，删除includes前面的“#”，改成如下
Include conf/extra/httpd-default.conf

1.2 修改httpd-default.conf

vim /application/apache/conf/extra/httpd-default.conf
#找到
ServerTokens Full
ServerSignature On
#改成
ServerTokens Prod
ServerSignature off

说明：

yum方式安装apache，默认的配置文件是在/etc/http/conf目录，只要在httpd.conf文件里去找1.2所说的配置，并按找修改完毕就可以。

1.3 测试

打开浏览器，输入apache默认目录里不存在的一个文件，然后敲回车，看浏览器会有什么提示？

1. 介绍

网站性能压力测试是服务器网站性能调优过程中必不可缺少的一环。只有让服务器处在高压情况下，才能真正体现出软件、硬件等各种设置不当所暴露出的问题。

性能测试工具目前最常见的有以下几种：ab、http_load、webbench、siege。今天我们专门来介绍ab。

ab是apache自带的压力测试工具。ab非常实用，它不仅可以对apache服务器进行网站访问压力测试，也可以对或其它类型的服务器进行压力测试。比如nginx、tomcat、IIS等。

2. ab的原理

ab是apachebench命令的缩写。

ab的原理：ab命令会创建多个并发访问线程，模拟多个访问者同时对某一URL地址进行访问。它的测试目标是基于URL的，因此，它既可以用来测试apache的负载压力，也可以测试nginx、lighthttp、tomcat、IIS等其它Web服务器的压力。

ab命令对发出负载的计算机要求很低，它既不会占用很高CPU，也不会占用很多内存。但却会给目标服务器造成巨大的负载，其原理类似CC攻击。自己测试使用也需要注意，否则一次上太多的负载。可能造成目标服务器资源耗完，严重时甚至导致死机。

3. ab的安装

ab的安装非常简单，如果是源码安装apache的话，那就更简单了。apache安装完毕后ab命令存放在apache安装目录的bin目录下。如下：

/usr/local/apache2/bin
可在apache官网下载安装包，也可以访问我提取好的链接下载http://pan.baidu.com/s/1eRVqgBC

4. 使用

将ab.exe 放入c盘根目录,菜单输入cmd进入doc窗口，执行

ab.exe -c 100 -n 1000 http://127.0.0.1/app/login

未分类

下面我们对这些参数，进行相关说明。如下：

-n 在测试会话中所执行的请求个数。默认时，仅执行一个请求。
-c 一次产生的请求个数。默认是一次一个。

C:>ab.exe -c 100 -n 1000 http://127.0.0.1/app/login
This is ApacheBench, Version 2.3 <$Revision: 655654 $>
Copyright 1996 Adam Twiss, Zeus Technology Ltd, http://www.zeustech.net/
Licensed to The Apache Software Foundation, http://www.apache.org/

Benchmarking 127.0.0.1 (be patient)
Completed 100 requests
Completed 200 requests
Completed 300 requests
Completed 400 requests
Completed 500 requests
Completed 600 requests
Completed 700 requests
Completed 800 requests
Completed 900 requests
Completed 1000 requests
Finished 1000 requests


Server Software:        Apache-Coyote/1.1   #apache版本
Server Hostname:        127.0.0.1           #请求访问的IP
Server Port:            80                  #请求访问的端口

Document Path:          /app/login          #页面地址
Document Length:        65 bytes            #页面长度

Concurrency Level:      100                 #并发数
Time taken for tests:   0.899 seconds       #共使用时间
Complete requests:      1000                #总的请求数
Failed requests:        0                   #请求失败数
Write errors:           0
Total transferred:      206000 bytes        #总共传输字节数，包含http的头信息等  
HTML transferred:       65000 bytes         #html字节数，实际的页面传递字节数
Requests per second:    1112.28 [#/sec] (mean)  #每秒多少请求，这个是非常重要的参数数值，服务器的吞吐量  
Time per request:       89.905 [ms] (mean)  #用户平均请求等待时间  
Time per request:       0.899 [ms] (mean, across all concurrent requests)#服务器平均处理时间，也就是服务器吞吐量的倒数  
Transfer rate:          223.76 [Kbytes/sec] received #每秒获取的数据长度 

Connection Times (ms)
              min  mean[+/-sd] median   max
Connect:        0    0   0.3      0       5
Processing:     1   88 210.6      4     894
Waiting:        1   53 146.4      4     654
Total:          1   88 210.7      4     896

Percentage of the requests served within a certain time (ms)
  50%      4 # 50%的请求在4ms内返回  
  66%      6
  75%     11
  80%     27 # 80%的请求在27ms内返回  
  90%    459
  95%    614
  98%    879
  99%    887
 100%    896 (longest request)

5. Linux安装

yum install httpd-tools
ab -v

Apache 强制 HTTP 全部跳转到 HTTPS

.htaccess 在每一层独立服务根目录下都存在，例如：

全部网站根目录为 /var/www/html/.htaccess

米扑博客根目录位 /var/www/html/mimvp-wordpress/.htaccess

米扑论坛根目录位 /var/www/html/mimvp-discuz/.htaccess

米扑学习根目录位 /var/www/html/mimvp-study/.htaccess

HTTP 80 强制转 HTTPS

全站采用https协议访问，所以需要http重定向到https，只需要在.htaccess加入下面规则

在相应的网站根目录新建 .htaccess

例如，在米扑博客的网站根目录下，新建

vim   /var/www/html/mimvp-wordpress/.htaccess

RewriteEngine On
RewriteCond %{SERVER_PORT} 80
RewriteRule ^(.*)$ https://%{HTTP_HOST}/$1 [R,L]

或者

RewriteEngine On
RewriteCond %{HTTPS} !=on
RewriteRule ^(.*) https://%{SERVER_NAME}/$1 [R,L]

强制301重定向 HTTPS

<IfModule mod_rewrite.c>
RewriteEngine on
RewriteBase /
RewriteCond %{SERVER_PORT} !^443$
RewriteRule (.*) https://%{SERVER_NAME}/$1 [R=301,L]
</IfModule>

站点绑定多个域名

只允许www.gworg.com 跳转

RewriteEngine On
RewriteCond %{SERVER_PORT} 80
RewriteCond %{HTTP_HOST} ^example.com [NC,OR]
RewriteCond %{HTTP_HOST} ^www.example.com [NC]
RewriteRule ^(.*)$ https://%{HTTP_HOST}/$1 [R,L]
###把网址更改为自己的###

高级用法 (可选）

RewriteEngine on
# 强制HTTPS
RewriteCond %{HTTPS} !=on [OR]
RewriteCond %{SERVER_PORT} 80
# 某些页面强制
RewriteCond %{REQUEST_URI} ^something_secure [OR]
RewriteCond %{REQUEST_URI} ^something_else_secure
RewriteRule .* https://%{SERVER_NAME}%{REQUEST_URI} [R=301,L]
# 强制HTTP
RewriteCond %{HTTPS} =on [OR]
RewriteCond %{SERVER_PORT} 443
# 某些页面强制
RewriteCond %{REQUEST_URI} ^something_public [OR]
RewriteCond %{REQUEST_URI} ^something_else_public
RewriteRule .* http://%{SERVER_NAME}%{REQUEST_URI} [R=301,L]

Apache mod_rewrite实现HTTP和HTTPS重定向跳转

当你的站点使用了HTTPS之后，你可能会想把所有的HTTP请求（即端口80的请求），全部都重定向至HTTPS（即端口443）。这时候你可以用以下的方式来做到：（Apache mod_rewrite）

把这段代码放在.htaccess文件，即可实现HTTP到HTTPS的重定向。

<IfModule mod_rewrite.c>
 RewriteEngine On
 RewriteBase /
 RewriteCond %{SERVER_PORT} 80
 RewriteRule ^(.*)$ https://blog.mimvp.com/$1 [R=301,L]
</IfModule>

而当你又想用回HTTP的时候，反过来就可以了：

<IfModule mod_rewrite.c>
 RewriteEngine On
 RewriteBase /
 RewriteCond %{SERVER_PORT} 443
 RewriteRule ^(.*)$ https://blog.mimvp.com/$1 [R=301,L]
</IfModule>

其中R=301表示Moved Permanently，即告诉搜索引擎或者浏览器下去直接访问后者的地址，

如果只是试验性地重定向，可以使用R=302(Found)，临时跳转

更多30x状态，请见米扑博客：HTTP协议中POST、GET、HEAD、PUT等请求方法总结

VirtualHost 添加重定向

实测以上方法，对于我的需求场景，都无效

我的项目场景：

1、在我的根目录下 /var/www/htmp/

2、配置有多个网站，如米扑博客（/var/www/htmp/mimvp-blog/）、米扑论坛（/var/www/htmp/mimvp-forum/）、米扑学习（/var/www/htmp/mimvp-study/）等

3、对于米扑博客的http请求，全部定向到https博客；对于米扑论坛的http请求，全部定向到https论坛；

最后，解决方案是在 VirtualHost 节点里，添加如下配置：

RewriteEngine on
RewriteCond   %{HTTPS} !=on
RewriteRule   ^(.*)  https://%{SERVER_NAME}$1 [L,R]

完整配置参数如下：

# blog
<VirtualHost *:80>
    ServerAdmin [email protected]
    DocumentRoot /var/www/html/wordpress
    ServerName blog.mimvp.com

    RewriteEngine on
    RewriteCond   %{HTTPS} !=on
    RewriteRule   ^(.*)  https://%{SERVER_NAME}$1 [L,R]

    DirectoryIndex index.php
    ErrorLog /var/log/blog.mimvp.com-error_log
    CustomLog /var/log/blog.mimvp.com-access_log common
</VirtualHost>

在米扑论坛、米扑学习等 VirtualHost 节点里，都添加如上配置，问题解决。

米扑博客效果，全部自动跳转到 https ：

https://blog.mimvp.com

关于

抢红包的需求分析

抢红包的场景有点像秒杀，但是要比秒杀简单点。
因为秒杀通常要和库存相关。而抢红包则可以允许有些红包没有被抢到，因为发红包的人不会有损失，没抢完的钱再退回给发红包的人即可。
另外像小米这样的抢购也要比淘宝的要简单，也是因为像小米这样是一个公司的，如果有少量没有抢到，则下次再抢，人工修复下数据是很简单的事。而像淘宝这么多商品，要是每一个都存在着修复数据的风险，那如果出故障了则很麻烦。

淘宝的专家丁奇有个文章有写到淘宝是如何应对秒杀的：《秒杀场景下MySQL的低效–原因和改进》

http://blog.nosqlfan.com/html/4209.html

基于redis的抢红包方案

下面介绍一种基于redis的抢红包方案。

把原始的红包称为大红包，拆分后的红包称为小红包。

1、小红包预先生成，插到数据库里，红包对应的用户ID是null。生成算法见另一篇blog：http://blog.csdn.net/hengyunabc/article/details/19177877

2、每个大红包对应两个redis队列，一个是未消费红包队列，另一个是已消费红包队列。开始时，把未抢的小红包全放到未消费红包队列里。

未消费红包队列里是json字符串，如{userId:’789′, money:’300′}。

3、在redis中用一个map来过滤已抢到红包的用户。

4、抢红包时，先判断用户是否抢过红包，如果没有，则从未消费红包队列中取出一个小红包，再push到另一个已消费队列中，最后把用户ID放入去重的map中。

5、用一个单线程批量把已消费队列里的红包取出来，再批量update红包的用户ID到数据库里。

上面的流程是很清楚的，但是在第4步时，如果是用户快速点了两次，或者开了两个浏览器来抢红包，会不会有可能用户抢到了两个红包？

为了解决这个问题，采用了lua脚本方式，让第4步整个过程是原子性地执行。

下面是在redis上执行的Lua脚本：

-- 函数：尝试获得红包，如果成功，则返回json字符串，如果不成功，则返回空  
-- 参数：红包队列名， 已消费的队列名，去重的Map名，用户ID  
-- 返回值：nil 或者 json字符串，包含用户ID：userId，红包ID：id，红包金额：money  

-- 如果用户已抢过红包，则返回nil  
if redis.call('hexists', KEYS[3], KEYS[4]) ~= 0 then  
  return nil  
else  
  -- 先取出一个小红包  
  local hongBao = redis.call('rpop', KEYS[1]);  
  if hongBao then  
    local x = cjson.decode(hongBao);  
    -- 加入用户ID信息  
    x['userId'] = KEYS[4];  
    local re = cjson.encode(x);  
    -- 把用户ID放到去重的set里  
    redis.call('hset', KEYS[3], KEYS[4], KEYS[4]);  
    -- 把红包放到已消费队列里  
    redis.call('lpush', KEYS[2], re);  
    return re;  
  end  
end  
return nil

下面是测试代码：

public class TestEval {  
    static String host = "localhost";  
    static int honBaoCount = 1_0_0000;  

    static int threadCount = 20;  

    static String hongBaoList = "hongBaoList";  
    static String hongBaoConsumedList = "hongBaoConsumedList";  
    static String hongBaoConsumedMap = "hongBaoConsumedMap";  

    static Random random = new Random();  

//  -- 函数：尝试获得红包，如果成功，则返回json字符串，如果不成功，则返回空  
//  -- 参数：红包队列名， 已消费的队列名，去重的Map名，用户ID  
//  -- 返回值：nil 或者 json字符串，包含用户ID：userId，红包ID：id，红包金额：money  
    static String tryGetHongBaoScript =   
//          "local bConsumed = redis.call('hexists', KEYS[3], KEYS[4]);n"  
//          + "print('bConsumed:' ,bConsumed);n"  
            "if redis.call('hexists', KEYS[3], KEYS[4]) ~= 0 thenn"  
            + "return niln"  
            + "elsen"  
            + "local hongBao = redis.call('rpop', KEYS[1]);n"  
//          + "print('hongBao:', hongBao);n"  
            + "if hongBao thenn"  
            + "local x = cjson.decode(hongBao);n"  
            + "x['userId'] = KEYS[4];n"  
            + "local re = cjson.encode(x);n"  
            + "redis.call('hset', KEYS[3], KEYS[4], KEYS[4]);n"  
            + "redis.call('lpush', KEYS[2], re);n"  
            + "return re;n"  
            + "endn"  
            + "endn"  
            + "return nil";  
    static StopWatch watch = new StopWatch();  

    public static void main(String[] args) throws InterruptedException {  
//      testEval();  
        generateTestData();  
        testTryGetHongBao();  
    }  

    static public void generateTestData() throws InterruptedException {  
        Jedis jedis = new Jedis(host);  
        jedis.flushAll();  
        final CountDownLatch latch = new CountDownLatch(threadCount);  
        for(int i = 0; i < threadCount; ++i) {  
            final int temp = i;  
            Thread thread = new Thread() {  
                public void run() {  
                    Jedis jedis = new Jedis(host);  
                    int per = honBaoCount/threadCount;  
                    JSONObject object = new JSONObject();  
                    for(int j = temp * per; j < (temp+1) * per; j++) {  
                        object.put("id", j);  
                        object.put("money", j);  
                        jedis.lpush(hongBaoList, object.toJSONString());  
                    }  
                    latch.countDown();  
                }  
            };  
            thread.start();  
        }  
        latch.await();  
    }  

    static public void testTryGetHongBao() throws InterruptedException {  
        final CountDownLatch latch = new CountDownLatch(threadCount);  
        System.err.println("start:" + System.currentTimeMillis()/1000);  
        watch.start();  
        for(int i = 0; i < threadCount; ++i) {  
            final int temp = i;  
            Thread thread = new Thread() {  
                public void run() {  
                    Jedis jedis = new Jedis(host);  
                    String sha = jedis.scriptLoad(tryGetHongBaoScript);  
                    int j = honBaoCount/threadCount * temp;  
                    while(true) {  
                        Object object = jedis.eval(tryGetHongBaoScript, 4, hongBaoList, hongBaoConsumedList, hongBaoConsumedMap, "" + j);  
                        j++;  
                        if (object != null) {  
//                          System.out.println("get hongBao:" + object);  
                        }else {  
                            //已经取完了  
                            if(jedis.llen(hongBaoList) == 0)  
                                break;  
                        }  
                    }  
                    latch.countDown();  
                }  
            };  
            thread.start();  
        }  

        latch.await();  
        watch.stop();  

        System.err.println("time:" + watch.getTotalTimeSeconds());  
        System.err.println("speed:" + honBaoCount/watch.getTotalTimeSeconds());  
        System.err.println("end:" + System.currentTimeMillis()/1000);  
    }  
}

测试结果20个线程，每秒可以抢2.5万个，足以应付绝大部分的抢红包场景。

如果是真的应付不了，拆分到几个redis集群里，或者改为批量抢红包，也足够应付。

总结

redis的抢红包方案，虽然在极端情况下（即redis挂掉）会丢失一秒的数据，但是却是一个扩展性很强，足以应付高并发的抢红包方案。

如何启用curl命令HTTP2支持

未分类

当我们直接使用 curl 去请求一个 https 页面时，默认可以看到其默认返回的是 HTTP1.1 的 response。现在使用 HTTP2 的网站越来越多，技术也越来越成熟，如何启用 curl 命令 HTTP 2 支持就成为了一个问题。

curl -I https://nghttp2.org/

未分类

当我们试图用 http2 参数时，会返回一个未支持协议的「curl: (1) Unsupported protocol」错误：

curl --http2 -I https://nghttp2.org/

未分类

使用如下命令我们可以看到 curl 版本：

curl --version

未分类

从上图中，我们可以看到当前 curl 的版本及支持的协议以及功能特性没有支持 HTTP2。

启用curl命令HTTP2支持

编译安装nghttp2

为了让 curl 支持 HTTP2 我们需要安装 nghttp2（http2 的 C 语言库）：

#安装编译工具等
sudo apt-get install git g++ make binutils autoconf automake autotools-dev libtool pkg-config 
  zlib1g-dev libcunit1-dev libssl-dev libxml2-dev libev-dev libevent-dev libjansson-dev 
  libjemalloc-dev cython python3-dev python-setuptools

#编译安装nghttp2
git clone https://github.com/tatsuhiro-t/nghttp2.git
cd nghttp2
autoreconf -i
automake
autoconf
./configure
make
sudo make install

升级curl版本

cd ~
sudo apt-get build-dep curl

wget http://curl.haxx.se/download/curl-7.46.0.tar.bz2
tar -xvjf curl-7.46.0.tar.bz2
cd curl-7.46.0
./configure --with-nghttp2=/usr/local --with-ssl
sudo make && make install

echo '/usr/local/lib' > /etc/ld.so.conf.d/local.conf
ldconfig

升级完版本之后，我们再查看 curl 版本时会发布特性中会增加 HTTP2 功能支持。此时 –http2 参数就可以正常使用了：

未分类

curl --http2 -I https://nghttp2.org

测试curl with http2

我们再使用如下命令测试 winclient 主页看看：

curl --http2 -I https://www.winclient.cn

返回结果如下：

未分类

curl用法：获取网站的header头及状态码 http://www.linuxidc.com/Linux/2015-11/125325.htm

MySQL的InnoDB引擎日志工作原理

当你使用UPDATE, INSERT, DELETE语句更新数据的时候，你就改变了两个地方的数据：log buffer和data buffers。Buffers是固定长度的内存块，通常是512字节。

LOG BUFFER           DATA BUFFER
=================    ===============
= Log Record #1 =    = Page Header =
= Log Record #2 =    = Data Row    =
= Log Record #3 =    = Data Row    =
= Log Record #4 =    = Data Row    =
=================    ===============

例如：INSERT INTO JOBS VALUES(1,2,3)语句执行之后，log buffer将增加一个新的log记录，称为Log Record #5，它包含一个rowid和新记录的内容。同时，data buffer也将增加一个新行，但是，它会同时在页头标识：该页最新的log记录是Log Record #5。在这个例子中#5是Log Sequence Number（LSN），它对于接下来操作的时序安排是至关重要的。

下面是data-change的一些细节：

1、一个INSERT log记录仅包含一个新数据，它对于在页上重做操作是足够的了，因此被称为一个redo条目。

2、LSN不是log记录的一个域，它是文件中的一个绝对地址的相对偏移值。
在InnoDB改变了log buffer和data buffer之后，接下来就是写盘了。这就是复杂的地方。有多个线程在监控buffer的活动情况，有三种情况――overflow， checkpoint和commit――可以导致写盘操作。

Overflows情况下发生了什么？

Overflow是很少发生的情况，因为InnoDB采用pro-active措施来防止buffers被填满。但是我们还是来看看下面两种情况：

1、如果log buffer满了，InnoDBInnoDB在buffer的末尾写log。那么情况向下面的图一样（log buffer只有四条记录的空间，现在插入第五条记录）：

LOG FILE(S) BEFORE WRITING LOG RECORD #5
=================
= Log Record #1 =
= Log Record #2 =
= Log Record #3 =
= Log Record #4 =
=================

LOG FILE(S) AFTER WRITING LOG RECORD #5
=================
= Log Record #5 =
= Log Record #2 =
= Log Record #3 =
= Log Record #4 =
=================

logs不可能永远增长。即使InnoDB使用了某些压缩算法，log文件还是会由于太大而不能放到任何磁盘驱动器上。因此InnoDB采取循环写的办法，也就是说将会覆盖前面就的log记录。

2、如果data buffer满了，InnoDB将最近使用的buffer写入到数据库中，但是不可能足够的快。这种情况下，页头的LSN就起作用了。第一，InnoDB检查它的LSN是否比log文件中最近的log记录的LSN大，只有当log赶上了data的时候，才会将数据写到磁盘。换句话说，数据页不会写盘，直到相应的log记录需要写盘的时候。这就是先写日志策略。

CheckPoints的时候发生了什么？

前面说过InnoDB采取了一些pro-active措施来保证不发生overflows，其中最重要的措施就是checkpointing。有一个分离的线程，或者说从一组修改buffers的线程中分离出来的一个线程。在特定的时间间隔，checkpointer将醒来，检查buffer的改变，并保证写盘操作已经发生了。

大部分DBMS在这个时候，将会把所有的buffer写盘，这样可以保证所有改变了但是没写盘的buffer都写盘。就是说DBMS将通过”Sharp Checkpoint” flush所有”dirty”buffers。但是InnoDB只保证：（a）log和data buffers不会超过某个限制点；（b）log始终比data先写盘；（c）没有哪个data buffer的页头LSN等于被覆盖写的log记录。也就是说InnoDB是”Fuzzy Checkpoint”。

在COMMIT的时候，InnoDB不会将dirty data page写盘。之所以强调这个是因为，很容易让人想到，提交改变就是将所有东西写到一个持久媒介上。其实，只有log记录需要写。写dirty data page只可能发生在overflow或checkpoint时刻，因为它们的内容是多余的。

Recovery

在recovery里面可以看到log是非常必要的：当数据库发生异常的时候，数据是可以恢复的。
对于不是损坏磁盘驱动器的异常，恢复是自动进行的。InnoDB读取最新的checkpoint日志记录，检查dirty pages是否在异常发生前写到磁盘上了，如果没有，则读取影响该页的log记录并应用它们。这被称为”rolling forward”。因为有LSN，所以InnoDB只需要比较这个数字就可以进行同步。

MySQL · 引擎特性 · InnoDB崩溃恢复

前言

数据库系统与文件系统最大的区别在于数据库能保证操作的原子性，一个操作要么不做要么都做，即使在数据库宕机的情况下，也不会出现操作一半的情况，这个就需要数据库的日志和一套完善的崩溃恢复机制来保证。本文仔细剖析了InnoDB的崩溃恢复流程，代码基于5.6分支。

基础知识

lsn: 可以理解为数据库从创建以来产生的redo日志量，这个值越大，说明数据库的更新越多，也可以理解为更新的时刻。此外，每个数据页上也有一个lsn，表示最后被修改时的lsn，值越大表示越晚被修改。比如，数据页A的lsn为100，数据页B的lsn为200，checkpoint lsn为150，系统lsn为300，表示当前系统已经更新到300，小于150的数据页已经被刷到磁盘上，因此数据页A的最新数据一定在磁盘上，而数据页B则不一定，有可能还在内存中。

redo日志: 现代数据库都需要写redo日志，例如修改一条数据，首先写redo日志，然后再写数据。在写完redo日志后，就直接给客户端返回成功。这样虽然看过去多写了一次盘，但是由于把对磁盘的随机写入(写数据)转换成了顺序的写入(写redo日志)，性能有很大幅度的提高。当数据库挂了之后，通过扫描redo日志，就能找出那些没有刷盘的数据页(在崩溃之前可能数据页仅仅在内存中修改了，但是还没来得及写盘)，保证数据不丢。

undo日志: 数据库还提供类似撤销的功能，当你发现修改错一些数据时，可以使用rollback指令回滚之前的操作。这个功能需要undo日志来支持。此外，现代的关系型数据库为了提高并发(同一条记录，不同线程的读取不冲突，读写和写读不冲突，只有同时写才冲突)，都实现了类似MVCC的机制，在InnoDB中，这个也依赖undo日志。为了实现统一的管理，与redo日志不同，undo日志在Buffer Pool中有对应的数据页，与普通的数据页一起管理，依据LRU规则也会被淘汰出内存，后续再从磁盘读取。与普通的数据页一样，对undo页的修改，也需要先写redo日志。

检查点: 英文名为checkpoint。数据库为了提高性能，数据页在内存修改后并不是每次都会刷到磁盘上。checkpoint之前的数据页保证一定落盘了，这样之前的日志就没有用了(由于InnoDB redolog日志循环使用，这时这部分日志就可以被覆盖)，checkpoint之后的数据页有可能落盘，也有可能没有落盘，所以checkpoint之后的日志在崩溃恢复的时候还是需要被使用的。InnoDB会依据脏页的刷新情况，定期推进checkpoint，从而减少数据库崩溃恢复的时间。检查点的信息在第一个日志文件的头部。

崩溃恢复: 用户修改了数据，并且收到了成功的消息，然而对数据库来说，可能这个时候修改后的数据还没有落盘，如果这时候数据库挂了，重启后，数据库需要从日志中把这些修改后的数据给捞出来，重新写入磁盘，保证用户的数据不丢。这个从日志中捞数据的过程就是崩溃恢复的主要任务，也可以成为数据库前滚。当然，在崩溃恢复中还需要回滚没有提交的事务，提交没有提交成功的事务。由于回滚操作需要undo日志的支持，undo日志的完整性和可靠性需要redo日志来保证，所以崩溃恢复先做redo前滚，然后做undo回滚。

我们从源码角度仔细剖析一下数据库崩溃恢复过程。整个过程都在引擎初始化阶段完成(innobase_init)，其中最主要的函数是innobase_start_or_create_for_mysql，innodb通过这个函数完成创建和初始化，包括崩溃恢复。首先来介绍一下数据库的前滚。

redo日志前滚数据库

前滚数据库，主要分为两阶段，首先是日志扫描阶段，扫描阶段按照数据页的space_id和page_no分发redo日志到hash_table中，保证同一个数据页的日志被分发到同一个哈希桶中，且按照lsn大小从小到大排序。扫描完后，再遍历整个哈希表，依次应用每个数据页的日志，应用完后，在数据页的状态上至少恢复到了崩溃之前的状态。我们来详细分析一下代码。

首先，打开所有的ibdata文件(open_or_create_data_files)(ibdata可以有多个)，每个ibdata文件有个flush_lsn在头部，计算出这些文件中的max_flush_lsn和min_flush_lsn，因为ibdata也有可能有数据没写完整，需要恢复，后续(recv_recovery_from_checkpoint_start_func)通过比较checkpont_lsn和这两个值来确定是否需要对ibdata前滚。

接着，打开系统表空间和日志表空间的所有文件(fil_open_log_and_system_tablespace_files)，防止出现文件句柄不足，清空buffer pool(buf_pool_invalidate)。接下来就进入最最核心的函数:recv_recovery_from_checkpoint_start_func，注意，即使数据库是正常关闭的，也会进入。

虽然recv_recovery_from_checkpoint_start_func看过去很冗长，但是很多代码都是为了LOG_ARCHIVE特性而编写的，真正数据崩溃恢复的代码其实不多。

首先，初始化一些变量，查看srv_force_recovery这个变量，如果用户设置跳过前滚阶段，函数直接返回。

接着，初始化recv_sys结构，分配hash_table的大小，同时初始化flush list rbtree。recv_sys结构主要在崩溃恢复前滚阶段使用。hash_table就是之前说的用来存不同数据页日志的哈希表，哈希表的大小被初始化为buffer_size_in_bytes/512, 这个是哈希表最大的长度，超过就存不下了，幸运的是，需要恢复的数据页的个数不会超过这个值，因为buffer poll最多(数据库崩溃之前脏页的上线)只能存放buffer_size_in_bytes/16KB个数据页，即使考虑压缩页，最多也只有buffer_size_in_bytes/1KB个，此外关于这个哈希表内存分配的大小，可以参考bug#53122。flush list rbtree这个主要是为了加入插入脏页列表，InnoDB的flush list必须按照数据页的最老修改lsn(oldest_modifcation)从小到大排序，在数据库正常运行时，可以通过log_sys->mutex和log_sys->log_flush_order_mutex保证顺序，在崩溃恢复则没有这种保证，应用数据的时候，是从第一个元素开始遍历哈希表，不能保证数据页按照最老修改lsn(oldest_modifcation)从小到大排序，这样就需要线性遍历flush_list来寻找插入位置，效率太低，因此引入红黑树，加快查找插入的位置。

接着，从ib_logfile0的头中读取checkpoint信息，主要包括checkpoint_lsn和checkpoint_no。由于InnoDB日志是循环使用的，且最少要有2个，所以ib_logfile0一定存在，把checkpoint信息存在里面很安全，不用担心被删除。checkpoint信息其实会写在文件头的两个地方，两个checkpoint域轮流写。为什么要两个地方轮流写呢？假设只有一个checkpoint域，一直更新这个域，而checkpoint域有512字节(OS_FILE_LOG_BLOCK_SIZE)，如果刚好在写这个512字节的时候，数据库挂了，服务器也挂了(先不考虑硬件的原子写特性，早期的硬件没有这个特性)，这个512字节可能只写了一半，导致整个checkpoint域不可用。这样数据库将无法做崩溃恢复，从而无法启动。如果有两个checkpoint域，那么即使一个写坏了，还可以用另外一个尝试恢复，虽然有可能这个时候日志已经被覆盖，但是至少提高了恢复成功的概率。两个checkpoint域轮流写，也能减少磁盘扇区故障带来的影响。checkpoint_lsn之前的数据页都已经落盘，不需要前滚，之后的数据页可能还没落盘，需要重新恢复出来，即使已经落盘也没关系，因为redo日志时幂等的，应用一次和应用两次都一样(底层实现: 如果数据页上的lsn大于等于当前redo日志的lsn，就不应用，否则应用。checkpoint_no可以理解为checkpoint域写盘的次数，每次刷盘递增1，同时这个值取模2可以用来实现checkpoint_no域的轮流写。正常逻辑下，选取checkpoint_no值大的作为最终的checkpoint信息，用来做后续崩溃恢复扫描的起始点。

接着，使用checkpoint域的信息初始化recv_sys结构体的一些信息后，就进入日志解析的核心函数recv_group_scan_log_recs，这个函数后续我们再分析，主要作用就是解析redo日志，如果内存不够了，就直接调用应用(recv_apply_hashed_log_recs)日志，然后再接着解析。如果需要应用的日志很少，就仅仅解析分发日志，到recv_recovery_from_checkpoint_finish函数中在应用日志。

接着，依据当前刷盘的数据页状态做一次checkpoint，因为在recv_group_scan_log_recs里可能已经应用部分日志了。至此recv_recovery_from_checkpoint_start_func函数结束。
在recv_recovery_from_checkpoint_finish函数中，如果srv_force_recovery设置正确，就开始调用函数recv_apply_hashed_log_recs应用日志，然后等待刷脏的线程退出(线程是崩溃恢复时临时启动的)，最后释放recv_sys的相关资源以及hash_table占用的内存。

至此，数据库前滚结束。接下来，我们详细分析一下redo日志解析函数以及redo日志应用函数的实现细节。

redo日志解析函数

解析函数的最上层是recv_group_scan_log_recs，这个函数调用底层函数(log_group_read_log_seg)，按照RECV_SCAN_SIZE(64KB)大小分批读取。读取出来后，首先通过block_no和lsn之间的关系以及日志checksum判断是否读到了日志最后(所以可以看出，并没一个标记在日志头标记日志的有效位置，完全是按照上述两个条件判断是否到达了日志尾部)，如果读到最后则返回(之前说了，即使数据库是正常关闭的，也要走崩溃恢复逻辑，那么在这里就返回了，因为正常关闭的checkpoint值一定是指向日志最后)，否则则把日志去头掐尾放到一个recv_sys->buf中，日志头里面存了一些控制信息和checksum值，只是用来校验和定位，在真正的应用中没有用。在放到recv_sys->buf之前，需要检验一下recv_sys->buf有没有满(RECV_PARSING_BUF_SIZE，2M)，满了就报错(如果上一批解析有不完整的日志，日志解析函数不会分发，而是把这些不完整的日志留在recv_sys->buf中，直到解析到完整的日志)。接下的事情就是从recv_sys->buf中解析日志(recv_parse_log_recs)。日志分两种：single_rec和multi_rec，前者表示只对一个数据页进行一种操作，后者表示对一个或者多个数据页进行多种操作。日志中还包括对应数据页的space_id，page_no，操作的type以及操作的内容(recv_parse_log_rec)。解析出相应的日志后，按照space_id和page_no进行哈希(如果对应的表空间在内存中不存在，则表示表已经被删除了)，放到hash_table里面(日志真正存放的位置依然在buffer pool)即可，等待后续应用。这里有几个点值得注意：

如果是multi_rec类型，则只有遇到MLOG_MULTI_REC_END这个标记，日志才算完整，才会被分发到hash_table中。查看代码，我们可以发现multi_rec类型的日志被解析了两次，一次用来校验完整性(寻找MLOG_MULTI_REC_END)，第二次才用来分发日志，感觉这是一个可以优化的点。
目前日志的操作type有50多种，每种操作后面的内容都不一样，所以长度也不一样，目前日志的解析逻辑，需要依次解析出所有的内容，然后确定长度，从而定位下一条日志的开始位置。这种方法效率略低，其实可以在每种操作的头上加上一个字段，存储后面内容的长度，这样就不需要解析太多的内容，从而提高解析速度，进一步提高崩溃恢复速度，从结果看，可以提高一倍的速度(从38秒到14秒，详情可以参见bug#82937)。
如果发现checkpoint之后还有日志，说明数据库之前没有正常关闭，需要做崩溃恢复，因此需要做一些额外的操作(recv_init_crash_recovery)，比如在错误日志中打印我们常见的“Database was not shutdown normally!”和“Starting crash recovery.”，还要从double write buffer中检查是否发生了数据页半写，如果有需要恢复(buf_dblwr_process)，还需要启动一个线程用来刷新应用日志产生的脏页(因为这个时候buf_flush_page_cleaner_thread还没有启动)。最后还需要打开所有的表空间。。注意是所有的表。。。我们在阿里云RDS MySQL的运维中，常常发现数据库hang在了崩溃恢复阶段，在错误日志中有类似“Reading tablespace information from the .ibd files…”字样，这就表示数据库正在打开所有的表，然后一看表的数量，发现有几十甚至上百万张表。。。数据库之所以要打开所有的表，是因为在分发日志的时候，需要确定space_id对应哪个ibd文件，通过打开所有的表，读取space_id信息来确定，另外一个原因是方便double write buffer检查半写数据页。针对这个表数量过多导致恢复过慢的问题，MySQL 5.7做了优化，WL#7142，主要思想就是在每次checkpoint后，在第一次修改某个表时，先写一个新日志mlog_file_name(包括space_id和filename的映射)，来表示对这个表进行了操作，后续对这个表的操作就不用写这个新日志了，当需要崩溃恢复时候，多一次扫描，通过搜集mlog_file_name来确定哪些表被修改过，这样就不需要打开所有的表来确定space_id了。
最后一个值得注意的地方是内存。之前说过，如果有太多的日志已经被分发，占用了太多的内存，日志解析函数会在适当的时候应用日志，而不是等到最后才一起应用。那么问题来了，使用了多大的内存就会出发应用日志逻辑。答案是：buffer_pool_size_in_bytes – 512 * buffer_pool_instance_num * 16KB。由于buffer_pool_instance_num一般不会太大，所以可以任务，buffer pool的大部分内存都被用来存放日志。剩下的那些主要留给应用日志时读取的数据页，因为目前来说日志应用是单线程的，读取一个日志，把所有日志应用完，然后就可以刷回磁盘了，不需要太多的内存。

redo日志应用函数

应用日志的上层函数为recv_apply_hashed_log_recs(应用日志也可能在io_helper函数中进行)，主要作用就是遍历hash_table，从磁盘读取对每个数据页，依次应用哈希桶中的日志。应用完所有的日志后，如果需要则把buffer_pool的页面都刷盘，毕竟空间有限。有以下几点值得注意：

同一个数据页的日志必须按照lsn从小到大应用，否则数据会被覆盖。只应用redo日志lsn大于page_lsn的日志，只有这些日志需要重做，其余的忽略。应用完日志后，把脏页加入脏页列表，由于脏页列表是按照最老修改lsn(oldest_modification)来排序的，这里通过引入一颗红黑树来加速查找插入的位置，时间复杂度从之前的线性查找降为对数级别。
当需要某个数据页的时候，如果发现其没有在Buffer Pool中，则会查看这个数据页周围32个数据页，是否也需要做恢复，如果需要则可以一起读取出来，相当于做了一次io合并，减少io操作(recv_read_in_area)。由于这个是异步读取，所以最终应用日志的活儿是由io_helper线程来做的(buf_page_io_complete)，此外，为了防止短时间发起太多的io，在代码中加了流量控制的逻辑(buf_read_recv_pages)。如果发现某个数据页在内存中，则直接调用recv_recover_page应用日志。由此我们可以看出，InnoDB应用日志其实并不是单线程的来应用日志的，除了崩溃恢复的主线程外，io_helper线程也会参与恢复。并发线程数取决于io_helper中读取线程的个数。

执行完了redo前滚数据库，数据库的所有数据页已经处于一致的状态，undo回滚数据库就可以安全的执行了。数据库崩溃的时候可能有一些没有提交的事务或者已经提交的事务，这个时候就需要决定是否提交。主要分为三步，首先是扫描undo日志，重新建立起undo日志链表，接着是，依据上一步建立起的链表，重建崩溃前的事务，即恢复当时事务的状态。最后，就是依据事务的不同状态，进行回滚或者提交。

undo日志回滚数据库

在recv_recovery_from_checkpoint_start_func之后，recv_recovery_from_checkpoint_finish之前，调用了trx_sys_init_at_db_start，这个函数做了上述三步中的前两步。

第一步在函数trx_rseg_array_init中处理，遍历整个undo日志空间(最多TRX_SYS_N_RSEGS(128)个segment)，如果发现某个undo segment非空，就进行初始化(trx_rseg_create_instance)。整个每个undo segment，如果发现undo slot非空(最多TRX_RSEG_N_SLOTS(1024)个slot)，也就行初始化(trx_undo_lists_init)。在初始化undo slot后，就把不同类型的undo日志放到不同链表中(trx_undo_mem_create_at_db_start)。undo日志主要分为两种：TRX_UNDO_INSERT和TRX_UNDO_UPDATE。前者主要是提供给insert操作用的，后者是给update和delete操作使用。之前说过，undo日志有两种作用，事务回滚时候用和MVCC快照读取时候用。由于insert的数据不需要提供给其他线程用，所以只要事务提交，就可以删除TRX_UNDO_INSERT类型的undo日志。TRX_UNDO_UPDATE在事务提交后还不能删除，需要保证没有快照使用它的时候，才能通过后台的purge线程清理。

第二步在函数trx_lists_init_at_db_start中进行，由于第一步中，已经在内存中建立起了undo_insert_list和undo_update_list(链表每个undo segment独立)，所以这一步只需要遍历所有链表，重建起事务的状态(trx_resurrect_insert和trx_resurrect_update)。简单的说，如果undo日志的状态是TRX_UNDO_ACTIVE，则事务的状态为TRX_ACTIVE，如果undo日志的状态是TRX_UNDO_PREPARED，则事务的状态为TRX_PREPARED。这里还要考虑变量srv_force_recovery的设置，如果这个变量值为非0，所有的事务都会回滚(即事务被设置为TRX_ACTIVE)，即使事务的状态应该为TRX_STATE_PREPARED。重建起事务后，按照事务id加入到trx_sys->trx_list链表中。最后，在函数trx_sys_init_at_db_start中，会统计所有需要回滚的事务(事务状态为TRX_ACTIVE)一共需要回滚多少行数据，输出到错误日志中，类似：5 transaction(s) which must be rolled back or cleaned up。InnoDB: in total 342232 row operations to undo的字样。

第三步的操作在两个地方被调用。一个是在recv_recovery_from_checkpoint_finish的最后，另外一个是在recv_recovery_rollback_active中。前者主要是回滚对数据字典的操作，也就是回滚DDL语句的操作，后者是回滚DML语句。前者是在数据库可提供服务之前必须完成，后者则可以在数据库提供服务(也即是崩溃恢复结束)之后继续进行(通过新开一个后台线程trx_rollback_or_clean_all_recovered来处理)。因为InnoDB认为数据字典是最重要的，必须要回滚到一致的状态才行，而用户表的数据可以稍微慢一点，对外提供服务后，慢慢恢复即可。因此我们常常在会发现数据库已经启动起来了，然后错误日志中还在不断的打印回滚事务的信息。事务回滚的核心函数是trx_rollback_or_clean_recovered，逻辑很简单，只需要遍历trx_sys->trx_list，按照事务不同的状态回滚或者提交即可(trx_rollback_resurrected)。这里要注意的是，如果事务是TRX_STATE_PREPARED状态，那么在InnoDB层，不做处理，需要在Server层依据binlog的情况来决定是否回滚事务，如果binlog已经写了，事务就提交，因为binlog写了就可能被传到备库，如果主库回滚会导致主备数据不一致，如果binlog没有写，就回滚事务。

崩溃恢复相关参数解析

innodb_fast_shutdown:
innodb_fast_shutdown = 0。这个表示在MySQL关闭的时候，执行slow shutdown，不但包括日志的刷盘，数据页的刷盘，还包括数据的清理(purge)，ibuf的合并，buffer pool dump以及lazy table drop操作(如果表上有未完成的操作，即使执行了drop table且返回成功了，表也不一定立刻被删除)。
innodb_fast_shutdown = 1。这个是默认值，表示在MySQL关闭的时候，仅仅把日志和数据刷盘。
innodb_fast_shutdown = 2。这个表示关闭的时候，仅仅日志刷盘，其他什么都不做，就好像MySQL crash了一样。
这个参数值越大，MySQL关闭的速度越快，但是启动速度越慢，相当于把关闭时候需要做的工作挪到了崩溃恢复上。另外，如果MySQL要升级，建议使用第一种方式进行一次干净的shutdown。

innodb_force_recovery:
这个参数主要用来控制InnoDB启动时候做哪些工作，数值越大，做的工作越少，启动也更加容易，但是数据不一致的风险也越大。当MySQL因为某些不可控的原因不能启动时，可以设置这个参数，从1开始逐步递增，知道MySQL启动，然后使用SELECT INTO OUTFILE把数据导出，尽最大的努力减少数据丢失。
innodb_force_recovery = 0。这个是默认的参数，启动的时候会做所有的事情，包括redo日志应用，undo日志回滚，启动后台master和purge线程，ibuf合并。检测到了数据页损坏了，如果是系统表空间的，则会crash，用户表空间的，则打错误日志。
innodb_force_recovery = 1。如果检测到数据页损坏了，不会crash也不会报错(buf_page_io_complete)，启动的时候也不会校验表空间第一个数据页的正确性(fil_check_first_page)，表空间无法访问也继续做崩溃恢复(fil_open_single_table_tablespace、fil_load_single_table_tablespace)，ddl操作不能进行(check_if_supported_inplace_alter)，同时数据库也被不能进行写入操作(row_insert_for_mysql、row_update_for_mysql等)，所有的prepare事务也会被回滚(trx_resurrect_insert、trx_resurrect_update_in_prepared_state)。这个选项还是很常用的，数据页可能是因为磁盘坏了而损坏了，设置为1，能保证数据库正常启动。
innodb_force_recovery = 2。除了设置1之后的操作不会运行，后台的master和purge线程就不会启动了(srv_master_thread、srv_purge_coordinator_thread等)，当你发现数据库因为这两个线程的原因而无法启动时，可以设置。
innodb_force_recovery = 3。除了设置2之后的操作不会运行，undo回滚数据库也不会进行，但是回滚段依然会被扫描，undo链表也依然会被创建(trx_sys_init_at_db_start)。srv_read_only_mode会被打开。
innodb_force_recovery = 4。除了设置3之后的操作不会运行，ibuf的操作也不会运行(ibuf_merge_or_delete_for_page)，表信息统计的线程也不会运行(因为一个坏的索引页会导致数据库崩溃)(info_low、dict_stats_update等)。从这个选项开始，之后的所有选项，都会损坏数据，慎重使用。
innodb_force_recovery = 5。除了设置4之后的操作不会运行，回滚段也不会被扫描(recv_recovery_rollback_active)，undo链表也不会被创建，这个主要用在undo日志被写坏的情况下。
innodb_force_recovery = 6。除了设置5之后的操作不会运行，数据库前滚操作也不会进行，包括解析和应用(recv_recovery_from_checkpoint_start_func)。

总结

InnoDB实现了一套完善的崩溃恢复机制，保证在任何状态下(包括在崩溃恢复状态下)数据库挂了，都能正常恢复，这个是与文件系统最大的差别。此外，崩溃恢复通过redo日志这种物理日志来应用数据页的方法，给MySQL Replication带来了新的思路，备库是否可以通过类似应用redo日志的方式来同步数据呢？阿里云RDS MySQL团队在后续的产品中，给大家带来了类似的特性，敬请期待。

MySQL的InnoDB的幻读问题

MySQL InnoDB事务的隔离级别有四级，默认是“可重复读”（REPEATABLE READ）。

未提交读（READ UNCOMMITTED）。另一个事务修改了数据，但尚未提交，而本事务中的SELECT会读到这些未被提交的数据（脏读）。
提交读（READ COMMITTED）。本事务读取到的是最新的数据（其他事务提交后的）。问题是，在同一个事务里，前后两次相同的SELECT会读到不同的结果（不重复读）。
可重复读（REPEATABLE READ）。在同一个事务里，SELECT的结果是事务开始时时间点的状态，因此，同样的SELECT操作读到的结果会是一致的。但是，会有幻读现象（稍后解释）。
串行化（SERIALIZABLE）。读操作会隐式获取共享锁，可以保证不同事务间的互斥。

四个级别逐渐增强，每个级别解决一个问题。

脏读，最容易理解。另一个事务修改了数据，但尚未提交，而本事务中的SELECT会读到这些未被提交的数据。
不重复读。解决了脏读后，会遇到，同一个事务执行过程中，另外一个事务提交了新数据，因此本事务先后两次读到的数据结果会不一致。
幻读。解决了不重复读，保证了同一个事务里，查询的结果都是事务开始时的状态（一致性）。但是，如果另一个事务同时提交了新数据，本事务再更新时，就会“惊奇的”发现了这些新数据，貌似之前读到的数据是“鬼影”一样的幻觉。

借鉴并改造了一个搞笑的比喻：

脏读。假如，中午去食堂打饭吃，看到一个座位被同学小Q占上了，就认为这个座位被占去了，就转身去找其他的座位。不料，这个同学小Q起身走了。事实：该同学小Q只是临时坐了一小下，并未“提交”。
不重复读。假如，中午去食堂打饭吃，看到一个座位是空的，便屁颠屁颠的去打饭，回来后却发现这个座位却被同学小Q占去了。
幻读。假如，中午去食堂打饭吃，看到一个座位是空的，便屁颠屁颠的去打饭，回来后，发现这些座位都还是空的（重复读），窃喜。走到跟前刚准备坐下时，却惊现一个恐龙妹，严重影响食欲。仿佛之前看到的空座位是“幻影”一样。

一些文章写到InnoDB的可重复读避免了“幻读”（phantom read），这个说法并不准确。

做个试验：(以下所有试验要注意存储引擎和隔离级别)

mysql> show create table t_bitflyG;
CREATE TABLE `t_bitfly` (
`id` bigint(20) NOT NULL default '0',
`value` varchar(32) default NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=gbk

mysql> select @@global.tx_isolation, @@tx_isolation;
+-----------------------+-----------------+
| @@global.tx_isolation | @@tx_isolation  |
+-----------------------+-----------------+
| REPEATABLE-READ       | REPEATABLE-READ |
+-----------------------+-----------------+

试验一：

t Session A                   Session B
|
| START TRANSACTION;          START TRANSACTION;
|
| SELECT * FROM t_bitfly;
| empty set
|                             INSERT INTO t_bitfly
|                             VALUES (1, 'a');
|
| SELECT * FROM t_bitfly;
| empty set
|                             COMMIT;
|
| SELECT * FROM t_bitfly;
| empty set
|
| INSERT INTO t_bitfly VALUES (1, 'a');
| ERROR 1062 (23000):
| Duplicate entry '1' for key 1
v (shit, 刚刚明明告诉我没有这条记录的)

如此就出现了幻读，以为表里没有数据，其实数据已经存在了，傻乎乎的提交后，才发现数据冲突了。

试验二：

t Session A                  Session B
|
| START TRANSACTION;         START TRANSACTION;
|
| SELECT * FROM t_bitfly;
| +------+-------+
| | id   | value |
| +------+-------+
| |    1 | a     |
| +------+-------+
|                            INSERT INTO t_bitfly
|                            VALUES (2, 'b');
|
| SELECT * FROM t_bitfly;
| +------+-------+
| | id   | value |
| +------+-------+
| |    1 | a     |
| +------+-------+
|                            COMMIT;
|
| SELECT * FROM t_bitfly;
| +------+-------+
| | id   | value |
| +------+-------+
| |    1 | a     |
| +------+-------+
|
| UPDATE t_bitfly SET value='z';
| Rows matched: 2  Changed: 2  Warnings: 0
| (怎么多出来一行)
|
| SELECT * FROM t_bitfly;
| +------+-------+
| | id   | value |
| +------+-------+
| |    1 | z     |
| |    2 | z     |
| +------+-------+
|
v

本事务中第一次读取出一行，做了一次更新后，另一个事务里提交的数据就出现了。也可以看做是一种幻读。

那么，InnoDB指出的可以避免幻读是怎么回事呢？

http://dev.mysql.com/doc/refman/5.0/en/innodb-record-level-locks.html

By default, InnoDB operates in REPEATABLE READ transaction isolation level and with the innodb_locks_unsafe_for_binlog system variable disabled. In this case, InnoDB uses next-key locks for searches and index scans, which prevents phantom rows (see Section 13.6.8.5, “Avoiding the Phantom Problem Using Next-Key Locking”).

准备的理解是，当隔离级别是可重复读，且禁用innodb_locks_unsafe_for_binlog的情况下，在搜索和扫描index的时候使用的next-key locks可以避免幻读。

关键点在于，是InnoDB默认对一个普通的查询也会加next-key locks，还是说需要应用自己来加锁呢？如果单看这一句，可能会以为InnoDB对普通的查询也加了锁，如果是，那和序列化（SERIALIZABLE）的区别又在哪里呢？

MySQL manual里还有一段：

13.2.8.5. Avoiding the Phantom Problem Using Next-Key Locking (http://dev.mysql.com/doc/refman/5.0/en/innodb-next-key-locking.html)

To prevent phantoms, InnoDB uses an algorithm called next-key locking that combines index-row locking with gap locking.

You can use next-key locking to implement a uniqueness check in your application: If you read your data in share mode and do not see a duplicate for a row you are going to insert, then you can safely insert your row and know that the next-key lock set on the successor of your row during the read prevents anyone meanwhile inserting a duplicate for your row. Thus, the next-key locking enables you to “lock” the nonexistence of something in your table.

我的理解是说，InnoDB提供了next-key locks，但需要应用程序自己去加锁。manual里提供一个例子：

SELECT * FROM child WHERE id > 100 FOR UPDATE;

这样，InnoDB会给id大于100的行（假如child表里有一行id为102），以及100-102，102+的gap都加上锁。

可以使用show innodb status来查看是否给表加上了锁。

再看一个实验，要注意，表t_bitfly里的id为主键字段。实验三：

t Session A                 Session B
|
| START TRANSACTION;        START TRANSACTION;
|
| SELECT * FROM t_bitfly
| WHERE id&lt;=1
| FOR UPDATE;
| +------+-------+
| | id   | value |
| +------+-------+
| |    1 | a     |
| +------+-------+
|                           INSERT INTO t_bitfly
|                           VALUES (2, 'b');
|                           Query OK, 1 row affected
|
| SELECT * FROM t_bitfly;
| +------+-------+
| | id   | value |
| +------+-------+
| |    1 | a     |
| +------+-------+
|                           INSERT INTO t_bitfly
|                           VALUES (0, '0');
|                           (waiting for lock ...
|                           then timeout)
|                           ERROR 1205 (HY000):
|

Ubuntu部署python3-flask-nginx-uwsgi-supervisor完美

安装虚拟环境

$ pip install virtualenv
$ pip install virtualenvwrapper

把虚拟机环境添加环境变量中

这个最好find / -name virtualenvwrapper.sh 看下位置

$ vi .bashrc
if [ -f /usr/local/bin/virtualenvwrapper.sh ]; then
    export WORKON_HOME=$HOME/.virtualenvs
    source /usr/local/bin/virtualenvwrapper.sh
fi

为flask项目创建一个虚拟环境

$ mkvirtualenv --python=python3 flask  #flask这个名字可以按自己需求修改,我项目是需要python3。所以选择 --python=python3,如果需要python2可以不加这个。
$ deactivate  #安装完虚拟环境后,先退出这个虚拟环境。

安装mysql数据库,安装数据这个没什么好提的网上有很多详细教程

$ apt install mysql-server mysql-client
$ apt install libmysqld-dev

安装nginx

$ apt install nginx   #这个安装也比较简单

安装supervisor

需要是python2 暂时不支持python3，这里有时候会遇到坑。pip install –upgrade pip 看看现在pip是什么版本。

$ vi /usr/local/bin/pip #如果发现pip是python3,不要慌用这个命令把第一行的python3修改python2 即可,如果是python2就无视这步
$ pip install supervisor #安装supervisor

安装uwsgi

需要注意flask项目需要的环境选择python3 还是python2.

这个我的项目是python3，如果是python2创建虚拟环境就用python2。具体可以看上面的为项目创建虚拟环境

$ workon flask  #进入虚拟环境
$ pip install uwsgi  #这个之前装到虚拟环境里面

如果出现Failed building wheel for uwsgi执行下面语句

apt-get install python3-dev

项目文件创建

这个按自己需要创建,也可以按我这个创建

$ mkdir /www  #根目录下创建一个www
$ mkdir /www/wwwroot  #这个项目文件全部放这个理
$ mkdir /www/log #日志文件

uwsgi配置

uwsgi配置好后,可以测试下

uwsgi配置路径:/www/wwwroot/uwsgi.ini

$ cd /www/wwwroot #可以放到项目,按自己需求都可以
$ vi uwsgi.ini   #创建一个uwsgi配置文件

[uwsgi]
# 当前这个项目的路径
chdir           = /www/wwwroot
# 模块
module          = manage   #启动文件名 个人理解
# python的虚拟环境
home            = /root/.virtualenvs/python3
# 是否启用mater模式
master          = true
# 进程数
processes       = 2
# socket文件地址
socket          = /www/wwwroot/uwsgi.sock
# wsgi文件
wsgi-file       = /www/wwwroot/manage.py  #启动文件
# wsgi文件中的app变量
callable        = app
# socket文件的权限
chmod-socket    = 666

配置好后可以运行起来测试是否成功

$ workon python3 #进入虚拟环境
$ uwsgi --uid www --gid www --ini /www/wwwroot/uwsgi.ini #这个可以指定用户和用户组权限,也可以不指定。测试没能正常打开项目就往下面步骤继续配置

nginx配置

$ cd /etc/nginx/sites-enabled/   #切换到nginx默认配置目录
$ mv default default.bak #修改配置前先备份下配置
$ vi default
server {
        listen 80;
        server_name www.xxoo.com;
        charset utf-8;
        client_max_body_size 75M;
        access_log /www/log/xxoo.access.log;
        error_log /www/log/xxoo.error.log;

        location / {
                include uwsgi_params;
                uwsgi_pass unix:/www/wwwroot/uwsgi.sock; #这个.sock文件一定要和uwsgi配置中一样
        }
}

修改nginx配置/etc/nginx/nginx.conf ，第一行user www www ; Nginx用户及组：用户组按自己需求配置。详细配置参数网上自己找

supervisor配置

supervisor配置路径:/www/wwwroot/supervisor.conf

$ vi supervisor.conf
[program:python]  #这个python可以按自己需求写
# supervisor执行的命令
command=/root/.virtualenvs/py3-zqcms/bin/uwsgi --uid www --gid www --ini /www/wwwroot/uwsgi.ini
# 项目的目录
directory = /www/wwwroot
# 开始的时候等待多少秒
startsecs= 5   #按自己需求写
# 停止的时候等待多少秒
stopwaitsecs= 5 #按自己需求写
# 自动开始
autostart=true
# 程序挂了后自动重启
autorestart=true
# 输出的log文件
stdout_logfile=/www/log/supervisord.log
# 输出的错误文件
stderr_logfile=/www/log/supervisorderr.log

[supervisord]
# log的级别
loglevel=info

配置好后就运行

$ supervisord -c /www/wwwroot/supervisor.conf  #执行的时候注意是在python2环境

如何终止多余 Supervisor 进程？

$ ps -ef | grep supervisor  #查看
$ kill 4012 #结束进程

注意:uwsgi nginx supervisor我只是简单配置了下,各位可以按需求配置。详细配置参数网上有很多资料。哪里写错,可以留言告诉我。

nginx+uwsgi完美配置文件，解决“upstream prematurely closed connection”报错

这段时间在折腾django，一开始用单一的uwsgi控制web访问，虽然说没有什么大问题，但是很多东西没法配置，比如超时时间，uwsgi虽然有个“harakiri”配置项，但并没有什么作用。

未分类

所以终究还是需要接口nginx来做前端代理，但是在代理的出现了一个问题，前端一直没有响应，nginx错误日志（/var/log/nginx/error.log）中出现如下报错

2017/12/21 10:36:48 [error] 9056#0: *18 upstream prematurely closed connection while reading response header from upstream, client: 180.160.72.9, server: localhost, request: "GET /favicon.ico HTTP/1.1", upstream: "uwsgi://127.0.0.1:8000", host: "127.0.0.1:8002"

nginx中access.log返回：

180.160.72.9 - - [21/Dec/2017:10:25:28 +0800] "GET / HTTP/1.1" 499 0 "-" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
180.160.72.9 - - [21/Dec/2017:10:25:53 +0800] "GET / HTTP/1.1" 499 0 "-" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
180.160.72.9 - - [21/Dec/2017:10:26:55 +0800] "GET / HTTP/1.1" 499 0 "-" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
180.160.72.9 - - [21/Dec/2017:10:27:55 +0800] "GET / HTTP/1.1" 502 575 "-" "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"

找了很多资料后，从v2ex某个评论中看到了某个点，就是代理的地址需要将端口换成sock进程文件，

最终完美的配置文件

新建一个conf配置文件，同时可解决大部分超时问题，内容如下：

fastcgi_connect_timeout 300;
fastcgi_send_timeout 300;
fastcgi_read_timeout 300;
fastcgi_buffer_size 256k;         #以下四个参数已加大，如果设置太小也会出现timeout 504
fastcgi_buffers 16 256k;
fastcgi_busy_buffers_size 512k;
fastcgi_temp_file_write_size 512k;


server {
        listen  8002;
        server_name localhost;

        location / {
            include     uwsgi_params;
            uwsgi_pass   unix:/home/api/vuln_cn/log/uwsgi.sock;    #这里是关键，指向uwsgi.sock文件，不能用127.0.0.1:8000，否则会出现文中的报错
            uwsgi_param UWSGI_CHDIR  /home/api/vuln_cn;     #这里与uwsgi.ini中配置类似，指向django项目目录
            uwsgi_param UWSGI_SCRIPT vuln_cn.wsgi;     #同上，指向项目名称
            access_log /home/api/vuln_cn/log/access.log;     #定义访问日志
            uwsgi_read_timeout 1800;
            uwsgi_send_timeout 300;
            proxy_read_timeout 300;
            }
    }