为什么应用容器化后数据包重传率会变高?

2023年 10月 25日 68.4k 0

1. 前言

在上一篇应用容器化后为什么性能下降这么多? 中分析了应用容器化后性能大幅下降的原因,容器和宿主机使用veth pair通信不仅造成性能的下降,同时会导致网络包重传率增大,这又是为什么呢?带着这个疑问,开始下面的分析。

2. 压测结果

为了了解应用容器化以后各个环节的网络性能,我们对容器到宿主机的网络进行了压测,发现容器到宿主机的网络重传率相对较高,使用iperf3压测结果如下图所示。

image.png
其中Retr表示数据包重传次数,为695次,造成重传的原因可能是丢包也可能是包乱序导致的重传,接下来我们一步步来排查具体原因。

3. 问题定位

3.1 netstat分析

通过netstat可以看到和重传相关的fast retransmits在快速变化,如下图所示

image.png

由于fast retransmits在快速变化,有理由怀疑是快速重传导致的,快速重传是针对RTO超时重传的优化,当收到三个重复的ack后可以触发快速重传,优化网络性能,而当开启sack以后,快速重传的条件又发生的变化,具体详见下文分析。

为了进一步验证,所以将测试前后的数量进行结果比较,结果如下所示。

image.png

image.png

我们惊人的发现762388-761693 = 695,和压测结果的重传数据包数结果完全一致,所以我们怀疑容器到宿主机的过程中发生的重传,都是快速重传导致的,所以问题转化为是什么导致了快速重传?

3.2 调用栈分析

要想分析重传的原因,很自然会从重传函数tcp_retransmit_skb()入手,我们来看下调用栈,如下图所示。

image.png

调用核心链路为tcp_ack -> tcp_xmit_recovery -> tcp_xmit_retransmit_queue -> tcp_retransmit_skb,知道调用链路后,还需要根据调用链路,逐个分析内部的细节,tcp_retransmit_skb主要作用为重传数据包,tcp_xmit_retransmit_queue主要作用为遍历队列,随后调用tcp_retransmit_skb逐个发送需要重传的数据包,先从tcp_xmit_recovery入手分析

3.3 tcp_xmit_recovery分析

/* Congestion control has updated the cwnd already. So if we're in
 * loss recovery then now we do any new sends (for FRTO) or
 * retransmits (for CA_Loss or CA_recovery) that make sense.
 */
static void tcp_xmit_recovery(struct sock *sk, int rexmit)
{
	struct tcp_sock *tp = tcp_sk(sk);

  //判断rexmit的状态 是否满足 rexmit的状态决定了是否重传
	if (rexmit == REXMIT_NONE || sk->sk_state == TCP_SYN_SENT)
		return;

	if (unlikely(rexmit == REXMIT_NEW)) {
		__tcp_push_pending_frames(sk, tcp_current_mss(sk),
					  TCP_NAGLE_OFF);
		if (after(tp->snd_nxt, tp->high_seq))
			return;
		tp->frto = 0;
	}
	tcp_xmit_retransmit_queue(sk);
}

从tcp_xmit_recovery可以看到rexmit的状态,决定了是否调用tcp_xmit_retransmit_queue从而发起数据包重传,而rexmit是从参数直接传过来的,再来看tcp_ack函数,查看rexmit的状态是如何改变和传入的。

3.4 tcp_ack分析

/* This routine deals with incoming acks, but not outgoing ones. */
static int tcp_ack(struct sock *sk, const struct sk_buff *skb, int flag)
{
//初始化rexmit状态
int rexmit = REXMIT_NONE; /* Flag to (re)transmit to recover losses */
...
if (tcp_ack_is_dubious(sk, flag)) {
		if (!(flag & (FLAG_SND_UNA_ADVANCED |
			      FLAG_NOT_DUP | FLAG_DSACKING_ACK))) {
			num_dupack = 1;
			/* Consider if pure acks were aggregated in tcp_add_backlog() */
			if (!(flag & FLAG_DATA))
				num_dupack = max_t(u16, 1, skb_shinfo(skb)->gso_segs);
		}
         //拥塞状态机变更,变更rexmit状态和标记需要重传的数据包
		tcp_fastretrans_alert(sk, prior_snd_una, num_dupack, &flag,
				      &rexmit);
	}
...
	tcp_xmit_recovery(sk, rexmit);
...
}

在tcp_ack中,rexmit最初的状态为默认状态REXMIT_NONE,改变其状态的函数为tcp_fastretrans_alert,由于tcp_fatstretrans_alert非常复杂,我们分析相关的最核心部分

3.5 tcp_fatstretrans_alert 分析

/* Process an event, which can update packets-in-flight not trivially.
 * Main goal of this function is to calculate new estimate for left_out,
 * taking into account both packets sitting in receiver's buffer and
 * packets lost by network.
 *
 * Besides that it updates the congestion state when packet loss or ECN
 * is detected. But it does not reduce the cwnd, it is done by the
 * congestion control later.
 *
 * It does _not_ decide what to send, it is made in function
 * tcp_xmit_retransmit_queue().
 */
static void tcp_fastretrans_alert(struct sock *sk, const u32 prior_snd_una,
				  int num_dupack, int *ack_flag, int *rexmit)
{
  ...
  //数据包是否丢失状态
	bool do_lost = num_dupack || ((flag & FLAG_DATA_SACKED) &&
				      tcp_force_fast_retransmit(sk));
  ...

	if (!tcp_is_rack(sk) && do_lost)
		tcp_update_scoreboard(sk, fast_rexmit);//标记数据包状态为TCPCB_LOST,真正发送在后续tcp_xmit_retransmit_queue

	*rexmit = REXMIT_LOST;
}

可以看到tcp_fastretrans_alert最后将rexmit设置为REXMIT_LOST,当do_lost为true时,调用tcp_update_scoreboard,而该函数的目的就是将数据包状态标记为TCPCB_LOST,以便在tcp_xmit_retransmit_queue中遍历并重传状态为TCPCB_LOST的数据包。

rexmit 决定了是否调用tcp_xmit_retransmit_queue,do_lost决定了数据包是否LOSS,从而决定在tcp_xmit_retransmit_queue函数中,是否发送该数据包,所以只要搞清楚do_lost什么时候为true,也许就能找到重传的原因了,经过分析do_lost的值由tcp_force_fast_retransmit决定。

3.6 tcp_force_fast_retransmit 分析

static bool tcp_force_fast_retransmit(struct sock *sk)
{
	struct tcp_sock *tp = tcp_sk(sk);

	return after(tcp_highest_sack_seq(tp),
		     tp->snd_una + tp->reordering * tp->mss_cache);
}

tcp_force_fast_retransmit大致的意思是发送端已经ack的数据包和未ack的数据之间差值过大的话,就可以马上重传数据包,换句话说tp->reordering * tp->mss_cache影响了是否需要重传,如下图所示。

image.png

结论:容器和宿主机之间的网络丢包的概率不大,所以造成快速重传的原因大概率是由于包乱序导致的,通过调整tp->reordering的值可能可以减缓包乱序发生的概率。

4. 优化方案

经过上面的分析造成重传的原因大概率是是由于包乱序导致的,而tp->reordering表示乱序度,由/proc/sys/net/ipv4/tcp_reordering参数决定,默认值为3,将/proc/sys/net/ipv4/tcp_reordering的值调整为9,看看结果会如何?

image.png

通过测试,调整/proc/sys/net/ipv4/tcp_reordering似乎降低了一些重传数据包数,从695降低为149,到这里相信还有很多疑问。

  • 疑问1:虽然重传数据包数降低了,为啥还有149?
  • 疑问2:容器和宿主机之间的网络为什么会造成包乱序?

带着这些疑问,继续下面的分析。

5.包乱序原因分析

5.1 容器向宿主机发送数据

我们知道容器使用veth接口向宿主机发送数据,并使用软中断的触发对端接受数据,而在软中断之前,需要将数据包放到cpu的数据包队列poll_list中,对应的结构体为softnet_data。

static int netif_rx_internal(struct sk_buff *skb)
{
	int ret;

	net_timestamp_check(netdev_tstamp_prequeue, skb);

	trace_netif_rx(skb);

#ifdef CONFIG_RPS
	if (static_branch_unlikely(&rps_needed)) {
		struct rps_dev_flow voidflow, *rflow = &voidflow;
		int cpu;

		preempt_disable();
		rcu_read_lock();
               
		cpu = get_rps_cpu(skb->dev, skb, &rflow);
		if (cpu < 0)
			cpu = smp_processor_id();
                 //将数据包通过PRS的方式,放入指定cpu的队列中
		ret = enqueue_to_backlog(skb, cpu, &rflow->last_qtail);

		rcu_read_unlock();
		preempt_enable();
	} else
#endif
	{
		unsigned int qtail;
                //将数据包放入当前cpu的队列中
		ret = enqueue_to_backlog(skb, get_cpu(), &qtail);
		put_cpu();
	}
	return ret;
}

从上面代码可以看出,当没有配置RPS时,数据包选择放入的cpu是通过get_cpu()决定的,也就是当前cpu,而在多核的系统上,容器向宿主机发送数据的cpu可能会切换,这就导致数据可能随机放入各个cpu数据包队列中,而在后续触发软中断处理数据包的过程是异步的,这就可能导致最终包乱序。

5.2 RPS

RPS全称为(Receive Packet Steering),它可以在逻辑上通过hash(4元组),在软件层面实现数据包的重定向,从而实现和RSS一样的效果,具体RPS和RSS区别可以查看内核协议栈扩展

通过RPS可以保障同一个数据流都在同一个cpu上处理,从而减少乱序的可能性。

RPS的配置方式可以通过修改
/sys/class/net//queues/rx-/rps_cpus的值来实现。例如我测试机器的cpu核心数为2,使用calico为容器网络通信方案,配置如下:

echo 3 > /sys/devices/virtual/net/cali9deae4f562c/queues/rx-0/rps_cpus

在配置了RPS以后,我们再来做一轮benchmark,看看这次的结果,如下图所示:

image.png

这次结果没有令人失望,重传数量降为了0,问题终于得到解决。

6. 总结

通过在容器网络中发现重传率过高,一步步从netstat统计信息分析,到内核调用栈分析,再到原因的分析以及方案的优化,整个问题排查的链路非常长,非常耗时,这也是企业云原生过程中遇到的一大痛点,所以往往需要提供内核可观测性工具以及不断的踩坑积累,帮忙我们快速分析和定位问题。

最后,感谢大家观看,也希望和我讨论云原生过程中遇到的问题。

7. 参考资料

www.kernel.org/doc/Documen…

相关文章

KubeSphere 部署向量数据库 Milvus 实战指南
探索 Kubernetes 持久化存储之 Longhorn 初窥门径
征服 Docker 镜像访问限制!KubeSphere v3.4.1 成功部署全攻略
那些年在 Terraform 上吃到的糖和踩过的坑
无需 Kubernetes 测试 Kubernetes 网络实现
Kubernetes v1.31 中的移除和主要变更

发布评论