UNIX高级环境编程(15)进程和内存分配 < 故宫角楼 >,故宫角楼


故宫角楼是很多摄影爱好者常去的地方,夕阳余辉下的故宫角楼平静而安详。

故宫角楼

 

首先,了解一下进程的基本概念,进程在内存中布局和内容。

此外,还需要知道运行时是如何为动态数据结构(如链表和二叉树)分配额外内存的。

一 进程

1 进程和程序

进程:是一个可执行程序的实例。

程序:包含一系列信息的文件,这些信息描述了如何在运行时创建一个进程。包含如下信息:

进程的再定义:进程是由内核定义的抽象的实体,并为该实体分配用以执行程序的各项系统资源。

从内核的角度看,进程由用户内存空间和一系列内核数据结构组成,其中用户内存空间包含了程序代码及代码所使用的变量,而内核数据结构则用于维护进程状态信息。

2 典型的进程内存布局

NewImage

每个进程所分配的内存由很多部分组成,通常称之为“段(segment)”。如上图所示:

将经过初始化的全局变量和静态变量与未经过初始化的全局变量和静态变量分开存放,其主要原因在于程序在磁盘上存储时,没有必要为未经过初始化的变量分配存储空间。相反,可执行文件只需记录未初始化数据段的位置及所需要大小,直到运行时再由程序加载器来分配这一空间。

需要注意一点时,该内存布局的讨论是在虚拟内存中的,并不是物理内存中的布局。

在后面会专门讨论虚拟内存的一些细节。

 

二 内存分配

1 在堆上分配内存

堆:一段长度可变的连续虚拟内存,始于进程的未初始化数据段末尾,随着内存的分配和释放而增减。将堆的当前内存顶部边界称为“程序中断(program break)”

program break是一个非常重要的概念,因为分配和释放内存的实际动作就是改变进程的program break位置。

program break的起始位置(堆的大小为0)位于未初始化数据段末尾之后。

细节:在分配新的内存后,program break位置升高,程序可以访问新分配区域内的任何内存地址,而此时物理内存页尚未分配。内存会在进程首次试图访问这些虚拟内存地址时自动分配新的物理内存页。

函数malloc和free

malloc函数声明

#include
void *malloc(size_t size); 

作用:在堆上分配参数size字节大小的内存。

返回值:成功返回指向新分配内存起始地址的指针,失败返回NULL

free函数声明 

#include
void free(void *ptr);


作用:释放ptr参数所指向的内存块,该参数应该是之前由malloc或者其他内存分配函数之一所返回的地址。

需要注意的是:一般情况下,free并不降低program break的位置,而是将这块内存增加到空闲内存列表中,供后续的malloc函数循环使用。因为:

  • 被释放的内存块通常位于堆的中间,而非堆的顶部,因而降低program break是不可能的。
  • 它最大限度地减少了内核调用调整program break系统调用的次数。
  • 通常程序会持有分配的内存或者反复释放和重新分配,而不是释放所有内存再运行一段时间。

仅当堆顶空闲内存“足够”大的时候,free函数的glibc实现会调用sbrk()来降低program break的地址,至于“足够”与否则取决于malloc函数包行为的控制参数(128KB为典型值)。这减少了必须对sbrk()发起的调用次数。

malloc和free的实现

malloc()的实现

free()的实现

首先先了解两点:malloc返回的内存块和空闲列表中的内存块的结构

为了知道每一个内存块的大小,当malloc分配内存块时,会额外分配几个字节来存放记录这块内存大小的整数值。该整数位于内存块的起始处,而实际返回给调用者的内存地址恰好位于这一长度记录字节之后。如下图所示:

NewImage

为了管理空闲内存列表,free()会使用内存块本身的空间来存放链表指针,将自身添加到列表中。如下图所示:

NewImage

所以,在频繁地分配和释放内存之后,堆中的链表可能会变成下图的样子,空闲链表中的空闲内存会和已分配的在用内存混杂在一起。

NewImage

 

三 编程需要注意的事项

通过对内存相关知识更多的了解,在平时编程的时候,应更清楚为什么我们需要遵守下面的规则。

 
虽然在我们平时的工作当中,可能涉及不到这么底层的原理,但是通过对这些基本原理的了解,可以让我们更加清除,我们写代码究竟在写些什么 :)

 

参考资料:

《Linux/Unix系统编程手册(上册)》 第6章,第7章 

相关内容