Linux内核中sk_buff分析
Linux内核中sk_buff分析
在内核中sk_buff表示一个网络数据包,它是一个双向链表,而链表头就是sk_buff_head,在老的内核里面sk_buff会有一个list域直接指向sk_buff_head也就是链表头,现在在2.6.32里面这个域已经被删除了。
而sk_buff的内存布局可以分作3个段,第一个就是sk_buff自身,第二个是linear-databuff,第三个是paged-databuff(也就是skb_shared_info)。
ok.我们先来看sk_buff_head的结构。它也就是所有sk_buff的头。
-
struct sk_buff_head {
-
/* These two members must be first. */
-
struct sk_buff *next;
-
struct sk_buff *prev;
-
-
__u32 qlen;
-
spinlock_t lock;
-
};
这里可以看到前两个域是和sk_buff一致的,而且内核的注释是必须放到最前面。这里的原因是:
这使得两个不同的结构可以放到同一个链表中,尽管sk_buff_head要比sk_buff小巧的多。另外,相同的函数可以同样应用于sk_buff和sk_buff_head。
然后qlen域表示了当前的sk_buff链上包含多少个skb。
lock域是自旋锁。
然后我们来看sk_buff,下面就是skb的结构:
我这里注释了一些简单的域,复杂的域下面会单独解释。
-
-
struct sk_buff {
-
/* These two members must be first. */
-
struct sk_buff *next;
-
struct sk_buff *prev;
-
-
//表示从属于那个socket,主要是被4层用到。
-
struct sock *sk;
-
//表示这个skb被接收的时间。
-
ktime_t tstamp;
-
//这个表示一个网络设备,当skb为输出时它表示skb将要输出的设备,当接收时,它表示输入设备。要注意,这个设备有可能会是虚拟设备(在3层以上看来)
-
struct net_device *dev;
-
///这里其实应该是dst_entry类型,不知道为什么内核要改为ul。这个域主要用于路由子系统。这个数据结构保存了一些路由相关信息
-
unsigned long _skb_dst;
-
#ifdef CONFIG_XFRM
-
struct sec_path *sp;
-
#endif
-
///这个域很重要,我们下面会详细说明。这里只需要知道这个域是保存每层的控制信息的就够了。
-
char cb[48];
-
///这个长度表示当前的skb中的数据的长度,这个长度即包括buf中的数据也包括切片的数据,也就是保存在skb_shared_info中的数据。这个值是会随着从一层到另一层而改变的。下面我们会对比这几个长度的。
-
unsigned int len,
-
///这个长度只表示切片数据的长度,也就是skb_shared_info中的长度。
-
data_len;
-
///这个长度表示mac头的长度(2层的头的长度)
-
__u16 mac_len,
-
///这个主要用于clone的时候,它表示clone的skb的头的长度。
-
hdr_len;
-
-
///接下来是校验相关的域。
-
union {
-
__wsum csum;
-
struct {
-
__u16 csum_start;
-
__u16 csum_offset;
-
};
-
};
-
///优先级,主要用于QOS。
-
__u32 priority;
-
kmemcheck_bitfield_begin(flags1);
-
///接下来是一些标志位。
-
//首先是是否可以本地切片的标志。
-
__u8 local_df:1,
-
///为1说明头可能被clone。
-
cloned:1,
-
///这个表示校验相关的一个标记,表示硬件驱动是否为我们已经进行了校验(前面的blog有介绍)
-
ip_summed:2,
-
///这个域如果为1,则说明这个skb的头域指针已经分配完毕,因此这个时候计算头的长度只需要head和data的差就可以了。
-
nohdr:1,
-
///这个域不太理解什么意思。
-
nfctinfo:3;
-
-
///pkt_type主要是表示数据包的类型,比如多播,单播,回环等等。
-
__u8 pkt_type:3,
-
///这个域是一个clone标记。主要是在fast clone中被设置,我们后面讲到fast clone时会详细介绍这个域。
-
fclone:2,
-
///ipvs拥有的域。
-
ipvs_property:1,
-
///这个域应该是udp使用的一个域。表示只是查看数据。
-
peeked:1,
-
///netfilter使用的域。是一个trace 标记
-
nf_trace:1;
-
///这个表示L3层的协议。比如IP,IPV6等等。
-
__be16 protocol:16;
-
kmemcheck_bitfield_end(flags1);
-
///skb的析构函数,一般都是设置为sock_rfree或者sock_wfree.
-
void (*destructor)(struct sk_buff *skb);
-
-
///netfilter相关的域。
-
#if defined(CONFIG_NF_CONNTRACK) || defined(CONFIG_NF_CONNTRACK_MODULE)
-
struct nf_conntrack *nfct;
-
struct sk_buff *nfct_reasm;
-
#endif
-
#ifdef CONFIG_BRIDGE_NETFILTER
-
struct nf_bridge_info *nf_bridge;
-
#endif
-
-
///接收设备的index。
-
int iif;
-
-
///流量控制的相关域。
-
#ifdef CONFIG_NET_SCHED
-
__u16 tc_index; /* traffic control index */
-
#ifdef CONFIG_NET_CLS_ACT
-
__u16 tc_verd; /* traffic control verdict */
-
#endif
-
#endif
-
-
kmemcheck_bitfield_begin(flags2);
-
///多队列设备的映射,也就是说映射到那个队列。
-
__u16 queue_mapping:16;
-
#ifdef CONFIG_IPV6_NDISC_NODETYPE
-
__u8 ndisc_nodetype:2;
-
#endif
-
kmemcheck_bitfield_end(flags2);
-
-
/* 0/14 bit hole */
-
-
#ifdef CONFIG_NET_DMA
-
dma_cookie_t dma_cookie;
-
#endif
-
#ifdef CONFIG_NETWORK_SECMARK
-
__u32 secmark;
-
#endif
-
///skb的标记。
-
__u32 mark;
-
-
///vlan的控制tag。
-
__u16 vlan_tci;
-
-
///传输层的头
-
sk_buff_data_t transport_header;
-
///网络层的头
-
sk_buff_data_t network_header;
-
///链路层的头。
-
sk_buff_data_t mac_header;
-
///接下来就是几个操作skb数据的指针。下面会详细介绍。
-
sk_buff_data_t tail;
-
sk_buff_data_t end;
-
unsigned char *head,
-
*data;
-
///这个表示整个skb的大小,包括skb本身,以及数据。
-
unsigned int truesize;
-
///skb的引用计数
-
atomic_t users;
-
};
我们来看前面没有解释的那些域。
先来看cb域,他保存了每层所独自需要的内部数据。我们来看tcp的例子。
我们知道tcp层的控制信息保存在tcp_skb_cb中,因此来看内核提供的宏来存取这个数据结构:
-
#define TCP_SKB_CB(__skb) ((struct tcp_skb_cb *)&((__skb)->cb[0]))
在ip层的话,我们可能会用cb来存取切片好的帧。
-
#define FRAG_CB(skb) ((struct ipfrag_skb_cb *)((skb)->cb))
|
评论暂时关闭