深入理解tcp time wait

深入理解tcp time wait

深入理解tcp time wait

深入理解tcp time wait

    #深入理解tcp time wait  
TIME_WAIT 是在TCP协议中很模糊的概念,它可能使socke能陷入的一种时间相对比较长的状态,过多的TIME_WAIT会影响新socket的建立。  
TIME_WAIT为什么会存在?它的作用又是什么?
下面我们就来理解下TIME_WAIT

tcp

这张图详细的列出了TCP建立连接和断开连接的各个TCP状态之间的转换。红色的代表server,蓝色的代表client。下面列出各自的TCP状态转换条件  

tcp

#TCP建立连接

Client: 向server发送 SYN 包,表示请求建立连接,进入 SYN_SENT 状态;  
Server: 接收来自client的 SYN 包,发送 SYN/ACK 包,代表client->server单向tcp连接已经建立, 进入 SYN_RCVD 状态;
Client: 接收到来自server的 SYN/ACK 包,发送给server ACK 包,进入 Established 状态;
Server: 收到client的 ACK 包,代表 server->client 的单向tcp连接也建立,此时进入 Established 状态;
#TCP断开连接

先引入两个概念,首先调用close()是"主动关闭"(active close),另一个是"被动关闭"(passive close)。一般我们连上ftp或者http,断开连接的都是客户端。看上面的图,"主动关闭"端状态要经历3个状态,而TIME_WAIT是属于“主动关闭”端最后的一个tcp状态。

client: 主动调用close(),发送 FIN 包,此时client就"主动关闭"端,进入 FIN_WAIT_1 状态;
Server: server自然成为"被动关闭"端,收到来自client的 FIN 包,发送 ACK 包,代表client->server单向tcp连接已经关闭,进入 CLOSE_WAIT 状态;
Client: 接收到来自server的 ACK 包,啥都不做,client->server单向的tcp连接已经断开,不能再发送应用层数据,进入 FIN_WAIT_2 状态;
Server: server端给client端发送 FIN 包,代表准备关闭server->client的tcp连接,server进入LAST_ACK 状态;
Client: 收到来自server的 FIN 包,发送 ACK 包,此时进入 TIME_WAIT 状态;
Server: 收到Client的 ACK 包,就进入closed状态,Server端此次socket tcp连接完全端口;
Client: 持续TIME_WAIT状态"一段时间";
#理解TIME_WAIT

理解了上面的原理之后,接着就是正式介绍TIME_WAIT。TIME_WAIT的时间大多数情况下都是2倍的MSL(Maximum Segment Lifetime),MSL是一个数据包在网络上能生存的最长生命周期,一旦超过MSL的包就会被丢弃。从上面可以看到,TIME_WAIT是“主动关闭”端的最后一个状态,引入TIME_WAIT的原因有:
1. 确保"主动关闭"端最后发出的 ACK 到达"被动关闭"端
2. 保证新tcp连接和老tcp连接不会干扰
原因1: 确保"主动关闭"端最后发出的 ACK 到达"被动关闭"端

看上面tcp断开连接的图,由client主动调用close(),发出FIN包,然后接收到server的ACK/FIN包,客户端最后发一个FIN包,进入TIME_WAIT。
设想一下,如果没有TIME_WAIT,client端发送最后的FIN包后里面关闭连接,如果由于网络原因,最后发出的FIN包没有顺利到达server(此时的server一直处于LAST_ACK状态等待最后FIN),server长时间没有接收到FIN包,会认为之前由server发出的ACK/FIN包client没有收到,server会重新发送一个ACK/FIN包,这时候client收到ACK/FIN包,发现端口已经关闭,协议栈直接回复RST包,导致server端接收到RST包报错,影响应用进程。
所以 TIME_WAIT 的作用可以保证最后的ACK包必然能到达对方,确保最后的连接正常端口。也解释了TIME_WAIT时间是2*MSL的原因。
原因2: 保证新tcp连接和老tcp连接不会干扰

看看下面的图

tcp

End Point2发送FIN包后,没有进入TIME_WAIT状态,此时新的tcp请求又来了,而且src_ip,src_port,dst_ip,dst_port都是一样的,新的连接建立TCP请求后,老的连接包可能会干扰新连接的包,导致乱序。所以引入TIME_WAIT,2*MSL能让老连接的包彻底在网络中消失,保证新连接绝对干净。
#TIME_WAIT数量多?

TIME_WAIT是占资源的,包括端口资源,协议栈队列,所以大量的TIME_WAIT会影响socket建立新连接,这点特别在高性能的Web服务器中很讲究,那么有办法去减少TIME_WAIT数量吗?嘿嘿,看了上面TIME_WAIT存在的原因后,还想去调整tcp_tw_recycle或者tcp_tw_reuse等参数吗?这很有可能会引发未知的TCP错误,而且很诡异,很难排查。所以在高性能的Web服务器里面,必然会去设置HTTP的KeepAlive,不然Web服务器立马就被大量的TIME_WAIT影响服务。
#调整TIME_WAIT数量

要调整TIME_WAIT的数量,网上都是这几个参数,要修改的话还是悠着点吧?
net.ipv4.tcp_tw_reuse = 0 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;打开tcp_tw_reuse的时候要注意,是客户端还是服务端,如果是
net.ipv4.tcp_tw_recycle = 0  表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_fin_timeout = 30  表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间。
tcp_tw_recycle

tcp_tw_recycle必须和tcp_timestamps一起打开,默认情况linux的tcp_timestamps都是打开的,tcp_tw_recycle到底是多久回收sockets?正常是700ms。
tcp_tw_recycle的坑:当多个客户端通过NAT方式联网并与服务端交互时,服务端看到的是同一个IP,也就是说对服务端而言这些客户端实际上等同于一个,可惜由于这些客户端的时间戳可能存在差异,于是乎从服务端的视角看,便可能出现时间戳错乱的现象,进而直接导致时间戳小的数据包被丢弃
注意:在NAT模型中,tcp_tw_recycle打开可能会导致丢包
tcp_tw_reuse

tcp_tw_reuse选项和tcp_timestamps选项也必须同时打开;
重用TIME_WAIT的条件是收到最后一个包后超过1s
#总结

TIME_WATI出现在TCP连接"主动关闭"端,理论上会持续2*MSL(根据不通系统而定,因为IP有TTL),TIME_WAIT的出现是为了解决两个问题
1. 确保连接能正确断开(确保"主动关闭"端最后发出的 ACK 到达"被动关闭"端)
2. 确保新的tcp连接和老的tcp连接不会干扰
 http://www.serverframework.com/asynchronousevents/2011/01/time-wait-and-its-design-implications-for-protocols-and-scalable-servers.html
tcp