共计 4294 个字符,预计需要花费 11 分钟才能阅读完成。
这篇文章主要介绍 Linux 物理内存外碎片化是什么意思,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!
一、Linux 物理内存外碎片化概述
什么是 Linux 物理内存碎片化?Linux 物理内存碎片化包括两种:
1. 物理内存内碎片:指分配给用户的内存空间中未被使用的部分。
例如进程需要使用 3K bytes 物理内存,于是向系统申请了大小等于 3Kbytes 的内存,但是由于 Linux 内核伙伴系统算法最小颗粒是 4K bytes,所以分配的是 4Kbytes 内存,那么其中 1K bytes 未被使用的内存就是内存内碎片。
Linux 物理内存内碎片
2. 物理内存外碎片化:指系统中无法利用的小内存块。
例如系统剩余内存为 16K bytes,但是这 16K bytes 内存是由 4 个 4K bytes 的页面组成,即 16K 内存物理页帧号 #1 不连续。在系统剩余 16K bytes 内存的情况下,系统却无法成功分配大于 4K 的连续物理内存,该情况就是内存外碎片导致,本文中阐述的就是物理内存外碎片化。
注:#1 物理页帧号:Linux 物理内存是通过页面进行管理,并对每个页面进行编号,称为页帧号,如果是连续的两个物理页面,其页帧号是连续的。
Linux 物理内存外碎片
二、Linux 物理内存管理框架
阐述物理内存外碎片化的来龙去脉前,先得明白 Linux 是如何管理物理内存的?Linux 内核采用的是 buddy system allocation,即著名的伙伴系统分配器。
1. 设计思路
伙伴系统分配器的核心思路:将系统的空闲页面分为 11 个块链表,每个块链表分别管理着 1,2,4,8,16,32,64,128,256,512 和 1024 个物理页帧号连续的页面。每个页面大小为 4K bytes,buddy 管理的块大小范围从 4K bytes 到 4M bytes,以 2 的倍数递增。
Linux 物理内存管理框架图
2. 管理逻辑
Linux 对物理页面管理的框架如上图,由于本文阐述的是物理内存外碎片,所以关于伙伴系统本文只做简单分析,不涉及具体的细节并不阐述关于 per cpu pageset 等内容,如果读者有兴趣,可以参考内核源码。
Linux 将物理内存分为不同的 node 和 zone 来管理:
node:为了支持 NUMA 结构,即 CPU 对不同内存簇的访问速度不同,Linux 设计了 node 结构,将物理内存分为多个内存节点管理; 对于 UMA 结构,只有一个 node 节点。
zone:为兼容不同的平台的硬件限制,例如 80×86 的体系结构的硬件总线访问等问题,Linux 将 node 节点下的内存分为多个 zone; 目前在 ARM 平台,多个 zone 管理已非必要。
zone 管理单元下的内存通过 free_area 数组将内存分成 11 个块链表进行管理:
free_area 数组总共有 11 个索引,每个索引管理着不同大小的块链表。
free_area[0]管理的内存单位为 2^0 页面,即 4K byte 内存;
free_area[1]管理的内存单位为 2^1 的物理页帧号连续页面,即 8K bytes 内存;
以此类推;
free_area 管理的内存还细分为各种类型,例如不可移动页面和可移动页面等,每种类型的页面类型对应一个 free_list 链表,该链表就链接着页面结构体。
当分配页面时,伙伴系统拿页面的步骤如下:(不考虑内存慢速路径)
根据分配页面类型,找到对应的内存节点 node 和内存管理单元 zone;
根据分配页面大小,找到的对应大小的 free_area 结构体;
根据分配页面类型,找到对应的 free_list 链表,分配页面;
当向伙伴系统释放页面时,buddy 释放页面的步骤如下:
根据分配页面类型,找到对应的内存节点 node 和内存管理单元 zone;
判断是否有物理页帧号相连的空闲内存块,可以跟被释放的内存块合并成更大的块内存,合并的条件:
物理帧必须都是连续的;
相同的类型和相同的大小;
合并后块内存的第一个页面的物理地址满足”2* 块大小 *4K”的倍数。
根据释放页面的大小或者合并的大小,找到的对应大小的 free_area 结构体;
根据释放页面的类型,找到对应的 free_list 链表,释放页面;
三、Linux 针对物理内存外碎片化的措施
从“二、Linux 物理内存管理架构”,可以发现伙伴系统内存管理框架是可以有效改善物理内存外碎片的,因为伙伴系统有如下两个管理逻辑,可以减少了外碎片化的产生:
小块内存在小块链表分配,减少大块链表被污染的概率;
内存释放时会尝试整合成大块内存的逻辑,有助于大块内存的合成;
除此之外,内核还支持以下措施改善物理内存外碎片化(只列举主要的机制):
1.memory compaction
(1)内存规整原理
Linux 物理页面规整机制,类似于磁盘整理,主要是应用了内核的页面迁移机制,是一种将可移动页面进行迁移后腾出连续物理内存的方法。
假设存在一个非常小的内存域如下:
蓝色表示空闲的页面,白色表示已经被分配的页面,可以看到如上内存域的空闲页面 (蓝色) 非常零散,无法分配大于两页的连续物理内存。
下面演示一下内存规整的简化工作原理,内核会运行两个独立的扫描动作:第一个扫描从内存域的底部开始,一边扫描一边将已分配的可移动 (MOVABLE) 页面记录到一个列表中:
另外第二扫描是从内存域的顶部开始,扫描可以作为页面迁移目标的空闲页面位置,然后也记录到一个列表里面:
等两个扫描在域中间相遇,意味着扫描结束,然后将左边扫描得到的已分配的页面迁移到右边空闲的页面中,左边就形成了一段连续的物理内存,完成页面规整。
(2)使用方法
如果想打开内存规整,内核需要打开相关的配置(默认为 y)
打开如上配置后,内存规整的触发是自动的,触发内存规整的途径如下:当进程尝试分配高阶内存无法满足并且完成 direct_reclaim#1(暂不分析 costly_order 情况)后,系统会根据内存剩余判断是否触发内存规整;
注:#1direct_reclaim:进程分配内存时发现内存不足从而启动直接回收内存操作,这种模式下分配和回收是同步的关系,也就是说分配内存的进程会因为等待内存回收而被阻塞。
内核也提供了接口给用户触发规整动作,接口如下:
/proc/sys/vm/compact_memory
只要往这个节点写值即可触发对系统所有 node 管理的内存做内存规整。
2.kcompactd
(1)kcompact 设计原理
kcompactd 是一个内核规整的后台进程,它跟 memory compaction 的区别在于:
memory compaction 的触发途径是内存分配进入 direct_reclaim(暂不分析 costly_order 情况)后系统会根据内存剩余判断是否触发内存规整,或者用户手动触发;
kcompactd 在唤醒 kswapd 或者 kswapd 进入休眠时,主动触发内存规整。
kcompactd 的触发路径如下:主要有如下两个途径:
唤醒 kswapd 之前触发规整,触发的条件是:本次分配不支持 direct_reclaim,node 内存节点是平衡的,并且 kswapd 失败的次数大于 MAX_RECLAIM_RETRIES(默认 16)。
kswapd 即将进入睡眠时:
(2)使用方法
如果想打开内存规整,内核需要打开相关的配置(默认为 y)
3. 其他优化的思路
内核经过不断的优化,那为何 Linux 为何还有物理内存外碎片化呢? 那是因为物理内存外碎片化虽然是可以不断优化的,但却无法得到根除。目前的内核,我觉得导致物理外碎片化还有以下两个主要原因:
不可移动页面污染了内存环境,导致页面规整失败;
随着系统不断申请和释放的页面,导致伙伴系统分配的物理内存页帧号越发随机,从而导致内存被隔断的概率越高,碎片化的程度越高,在 3.2 阐述。
针对以上两个原因,以下的优化措施可能达到一定的优化效果:
(1)减少 UNMOVABLE 页面污染内存环境
限制不可以移动页面偷页行为
Linux 内存分配中支持 fallback 机制,又叫偷页机制。该机制是为了规避同个 zone 管理单位页面类型剩余不平衡的问题,例如同个 zone,A 页面类型空闲内存较多,B 页面类型空闲内存却非常紧缺,如果没有偷页机制,分配 B 页面类型就会进入内存分配慢速路径。有了偷页机制,在同个 zone 管理单位,如果 UNMOVABLE 类型无空闲页面,但是 MOVABLE 类型页面还有空闲页面,偷页机制支持在 list_head[UNMOVABLE]分配不到页面的情况下,向 list_head[MOVABLE]分配页面。
以下数组明确了各种页面类型可偷的页面类型,例如第一行表示 UNMOVABLE 页面可以偷 RECLAIMABLE 和 MOVABLE 类型的页面,其他类似。
如果不可移动页面频繁的偷页会导致不可移动页面很快污染了内存环境,特别污染了可移动页面的内存,对内存规整成功率的影响比较大。基于以上情况,可以在偷页的机制上加上分配大小限制的判断,不可移动页面只有大块内存分配才允许偷页,以此减少不可移动页面对内存环境的污染。
不可移动类型页面偷页后主动偿还
该方法主要是不可移动页面偷页后的一种补偿方法。如果发生不可移动页面偷页后,我们将该页面记录到一个列表,等后续不可移动页面类型存在空闲页面时,将所偷的页面迁移回不可移动页面中,从而降低不可移动页面的污染。
(2)降低分配页帧号的随机性
假设有一块小内存域如下,以下两种内存分配方式哪种会导致严重的内存碎片化?
页面从头部开始分配,直到尾部;
页面随机从任何位置分配。
明显是第二种内存分配方式的对内存外碎片化更不友好,而这点也是伙伴系统目前没有解决的问题。伙伴系统虽然将内存规划成各种大小的内存块,以让小内存分配在小块链表分配,尽量不污染大块内存链表,但是却没办法保证小块内存具体是在物理内存的哪个页帧范围分配。随着系统的运行越久,小块内存的分配的物理页帧号越发随机,那么其导致碎片化的概率就会越高。
预留法
根据这种情况,可以通过预留的方式进行相应的优化。
预留一定的内存专门用于小块内存分配,经过这个优化措施后,可以有效降低小块内存分配的物理页帧号的随机性,从而降低小块内存污染内存环境的概率。
预留一定的内存专门用于大块内存分配,经过该优化措施后,预留的内存被小块内存污染的概率就会降低,可以提升预留内存分配大块内存的成功率。
另外关于降低伙伴系统分配页帧号随机性,还是存在很多优化的措施,后续根据需要会专门开展一篇阐述该部分优化的文章,如果读者有兴趣,到时可以查阅。
以上是“Linux 物理内存外碎片化是什么意思”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注丸趣 TV 行业资讯频道!