深入浅出Linux之内核基础层

文章由LinuxBoy分享于2019-03-28 02:03:57热评（585）

深入浅出Linux之内核基础层

前言将内核分成了内核基础层和内核应用层。记得我们的目标是“快速流畅的阅读内核代码”，为了达到这个目标，必须先了解内核的基础和数据结构。这些知识使用范围很广，如果不了解，在内核代码的理解上就容易出现障碍。

1.内核对内存的使用

简单说，内核提供了两个层次的内存分配接口。一个是从伙伴系统分配，一个是从slab分配。关于伙伴系统和slab机制，在后面的章节再分析。这里只需要了解，伙伴系统是最底层的内存管理机制，提供基于基于页式的内存管理，而slab是伙伴系统之上的内存管理，提供基于对象的内存管理。

从伙伴系统分配内存的调用是alloc_pages，注意此时得到的页面的地址，如果要获得能使用的内存地址，还需要page_address调用来获得内存地址。

如果要直接获得内存地址，需要使用__get_free_pages。__get_free_pages其实封装了alloc_pages和page_address两个函数。

alloc_pages申请的内存是以页为单元的，最少也要一个页。如果只是一小块内存，一个页就浪费了，而且内核中很多应用也希望一种对象化的内存管理，希望内存管理能自动的构造和析构对象，这都很接近面向对象的思路了。这就是slab内存管理。

要从slab申请内存，则需要创建一个slab对象，使用kmem_cache_create创建slab对象，kmem_cache_create可以提供对象的名字和大小，构造函数和析构函数等。然后通过kmem_cache_alloc和kmem_cache_free来申请和释放内存。

内核中常用的kmalloc其实也是slab管理。只不过内核已经创建好了一些固定大小的对象，用户通过kmalloc申请的时候，就使用了这些对象。

提供一个内核的例子：

======================================================================

创建slab对象：

bh_cachep = kmem_cache_create("buffer_head",

sizeof(struct buffer_head), 0,

(SLAB_RECLAIM_ACCOUNT|SLAB_PANIC|

SLAB_MEM_SPREAD),

init_buffer_head,

NULL);

创建了一个名为“buffer_head"的对象，对象的初始化函数为init_buffer_head

申请slab对象：

struct buffer_head *ret = kmem_cache_alloc(bh_cachep, gfp_flags);

释放slab对象：

kmem_cache_free(bh_cachep, bh);

内核中还有一个内存分配调用：vmalloc。Vmalloc涉及到高端内存和建立页表映射的概念，作为内核基础的本节就不分析了。理解了上面的几个函数调用，阅读内核代码的时候，就可以清晰内核中对内存的使用。至于内存管理的结构和细节，在后面我们再讨论。

2.内核使用的进程调度

内核中经常需要使用进程的调度。首先看一个例子。

#define wait_event(wq, condition) \

do { \

if (condition) \

break; \

__wait_event(wq, condition); \

} while (0)

#define __wait_event(wq, condition) \

do { \

DEFINE_WAIT(__wait); \

for (;;) { \

prepare_to_wait(&wq, &__wait, TASK_UNINTERRUPTIBLE); \

if (condition) \

break; \

schedule(); \

} \

finish_wait(&wq, &__wait); \

} while (0)

上文定义了一个wait对象，然后设置进程睡眠。如果有其它进程唤醒这个进程后，判断条件是否满足，如果满足则删除wait对象，否则进程继续睡眠。

这是一个很常见的例子，使用wait_event调用实现进程调度的实例在内核中很多，而且内核中还实现了一系列的函数，简单介绍一下。

wait_event_timeout ：和wait_event的区别是有时间限制，如果条件满足，进程恢复运行，或者时间到达，进程同样恢复运行
wait_event_interruptible：和wait_event类似，不同之处进程处于可打断的睡眠。而wait_event设置进程处于不可打断的睡眠。两者区别何在？可打断的睡眠进程可以接收到信号，而不可打断的睡眠进程不能处理信号。
wait_event_interruptible_timeout：和wait_event_interruptible相比，多个了时间限制。在规定的时间到达后，进程恢复运行。
wait_event_interruptible_exclusive：和wait_event_interruptible区别是排它性的等待。何谓排它性的等待？有一些进程都在等待队列中，当唤醒的时候，内核是唤醒所有的进程。如果进程设置了排它性等待的标志，那么唤醒所有非排它性的进程和一个排它性进程。

3.内核的软中断和tasklet

linux内核把中断的执行分拆成两部分。和硬件关系紧密，必须关中断执行的操作放在中断上下文中执行，而可以开中断执行的操作则放在软中断上下文执行。

为此目的，linux内核定义了几个缺省的软中断，网络设备有自己的发送和接收软中断，块设备也有自己的软中断。为了方便使用，内核还定义了一个TASKLET软中断。TASKLET是一种特殊的软中断，一个TASKLET只能由一个CPU 执行，同一刻，不同的TASKLET可以在不同的CPU上执行，而同样的TASKLET只能有一个在执行。这个和软中断不同，软中断同一刻可以在不同的CPU并行执行，因此软中断必须考虑重入的问题。

内核中很多地方使用了tasklet。先分析一个例子：

======================================================================

DECLARE_TASKLET_DISABLED(hil_mlcs_tasklet, hil_mlcs_process, 0);

tasklet_schedule(&hil_mlcs_tasklet);

上面的例子首先定义了一个tasklet，它的执行函数是hil_mlcs_process。当程序中调用

tasklet_schedule，会把要执行的结构插入到一个tasklet链表。然后触发一个TASKLET软

中断。每个CPU都有自己的tasklet链表，内核会根据情况，确定在何时执行tasklet。

可以看到，TASKLET使用起来很简单。本节只需要了解在内核如何使用即可。

4.工作队列

工作队列和tasklet相似，都是一种延缓执行的机制。不同之处是工作队列有自己的进程上下文，所以工作队列可以睡眠，可以被调度。而tasklet一般要在软中断上下文中执行。

看一个工作队列的例子：

======================================================================

INIT_WORK(&ioc->sas_persist_task,

mptsas_persist_clear_table,

(void *)ioc);

schedule_work(&ioc->sas_persist_task);

使用工作队列很简单，schedule_work就把用户定义的work_struct加入系统的队列中，并唤醒系统线程去执行。那么是那一个系统线程执行用户的work_struct？实际上，内核初始化的时候，就要创建一个工作队列keventd_wq，同时为这个工作队列创建系统线程（缺省是为每个CPU创建一个系统线程）。

内核同时还提供了create_workqueue和create_singlethread_workqueue函数，这样用户可以创建自己的工作队列和执行线程，而不用内核提供的工作队列。看内核的例子：

======================================================================

kblockd_workqueue = create_workqueue("kblockd");

int kblockd_schedule_work(struct work_struct *work)

{

return queue_work(kblockd_workqueue, work);

}

kblockd_workqueue是内核通用块层提供的工作队列，需要由kblockd_workqueue执行的工作，就要调用kblockd_schedule_work，其实就是调用queue_work把work加入到kblockd_workqueued工作队列的任务链表。

create_singlethread_workqueue和create_workqueue类似，不同之处像名字揭示的一样，create_singlethread_workqueue只创建一个内核线程，而不是为每个CPU创建一个内核线程。

推荐文章：

深入浅出Linux之内核基础层