oom killer

作者&投稿:成王柱 (若有异议请与网页底部的电邮联系)
~ Linux内核为了提高内存的使用效率采用过度分配内存(over-commit memory)的办法,造成物理内存过度紧张进而触发OOM机制来杀死一些进程回收内存。

该机制会监控那些占用内存过大,尤其是瞬间很快消耗大量内存的进程,为了防止内存耗尽会把该进程杀掉。

Linux在内存分配路径上会对内存余量做检查,(1)如果检查到内存不足,则触发OOM机制。(2)OOM首先会对系统所有进程(出init和内核线程等特殊进程)进行打分,并选出最bad的进程;然后杀死该进程。(3)同时会触发内核oom_reaper进行内存收割。(4)同时内核还提供了sysfs接口系统OOM行为,以及进程OOM行为。然后借用一个示例来分析OOM时内存状态。

1. 关于OOM

内核检测到系统内存不足,在内存分配路径上触发 out_of_memory() ,然后调用 select_bad_process() 选择一个'bad'进程 oom_kill_process() 杀掉,判断和选择一个‘bad'进程的过程由 oom_badness() 决定。

Linux下每个进程都有自己的OOM权重,在/proc/<pid>/oom_adj里面,范围是-17到+15,取值越高,越容易被杀掉。

2. OOM触发路径

在内存分配路径上,当内存不足的时候会触发kswapd、或者内存规整,极端情况会触发OOM,来获取更多内存。

在内存回收失败之后,__alloc_pages_may_oom是OOM的入口,但是主要工作在out_of_memory中进行处理。

由于Linux内存都是以页为单位,所以__alloc_pages_nodemask是必经之处。

static inline struct page *

__alloc_pages_may_oom(gfp_t gfp_mask, unsigned int order,

    const struct alloc_context *ac, unsigned long *did_some_progress)

{

    struct oom_control oc = {---------------------------------------------------------OOM控制参数。

        .zonelist = ac->zonelist,

        .nodemask = ac->nodemask,

        .memcg = NULL,

        .gfp_mask = gfp_mask,

        .order = order,

    };

    struct page *page;

    *did_some_progress = 0;

    /*

    * Acquire the oom lock.  If that fails, somebody else is

    * making progress for us.

    */

    if (!mutex_trylock(&oom_lock)) {

        *did_some_progress = 1;

        schedule_timeout_uninterruptible(1);

        return NULL;

    }

    page = get_page_from_freelist(gfp_mask | __GFP_HARDWALL, order,

                    ALLOC_WMARK_HIGH|ALLOC_CPUSET, ac);-----------------------------再次使用高水位检查一次,是否需要启动OOM流程。

    if (page)

        goto out;

    if (!(gfp_mask & __GFP_NOFAIL)) {----------------------------------------------__GFP_NOFAIL是不允许内存申请失败的情况,下面都是允许失败的处理。

        /* Coredumps can quickly deplete all memory reserves */

        if (current->flags & PF_DUMPCORE)

            goto out;

        /* The OOM killer will not help higher order allocs */

        if (order > PAGE_ALLOC_COSTLY_ORDER)---------------------------------------order超过3的申请失败,不会启动OOM回收。

            goto out;

        /* The OOM killer does not needlessly kill tasks for lowmem */

        if (ac->high_zoneidx < ZONE_NORMAL)

            goto out;

        if (pm_suspended_storage())

            goto out;

        /* The OOM killer may not free memory on a specific node */

        if (gfp_mask & __GFP_THISNODE)

            goto out;

    }

    /* Exhausted what can be done so it's blamo time */

    if (out_of_memory(&oc) || WARN_ON_ONCE(gfp_mask & __GFP_NOFAIL)) {-------------经过上面各种情况,任然需要进行OOM处理。调用out_of_memory()。

        *did_some_progress = 1;

        if (gfp_mask & __GFP_NOFAIL) {

            page = get_page_from_freelist(gfp_mask, order,

                    ALLOC_NO_WATERMARKS|ALLOC_CPUSET, ac);-------------------------对于__GFP_NOFAIL的分配情况,降低分配条件从ALLOC_WMARK_HIGH|ALLOC_CPUSET降低到ALLOC_NO_WATERMARKS|ALLOC_CPUSET。

            /*

            * fallback to ignore cpuset restriction if our nodes

            * are depleted

            */

            if (!page)

                page = get_page_from_freelist(gfp_mask, order,

                    ALLOC_NO_WATERMARKS, ac);--------------------------------------如果还是分配失败,再次降低分配标准,从ALLOC_NO_WATERMARKS|ALLOC_CPUSET降低到ALLOC_NO_WATERMARKS。真的是为了成功,节操越来越低啊。

        }

    }

out:

    mutex_unlock(&oom_lock);

    return page;

}

4.3 OOM处理:对进程打分以及杀死最高评分进程

out_of_memory函数是OOM机制的核心,他可以分为两部分。一是调挑选最’bad‘的进程,二是杀死它。

bool out_of_memory(struct oom_control *oc)

{

    unsigned long freed = 0;

    enum oom_constraint constraint = CONSTRAINT_NONE;

    if (oom_killer_disabled)----------------------------------------------------在freeze_processes会将其置位,即禁止OOM;在thaw_processes会将其清零,即打开OOM。所以,如果在冻结过程,不允许OOM。

        return false;

    if (!is_memcg_oom(oc)) {

        blocking_notifier_call_chain(&oom_notify_list, 0, &freed);

        if (freed > 0)

            /* Got some memory back in the last second. */

            return true;

    }

    if (task_will_free_mem(current)) {----------------------------------------如果当前进程正因为各种原因将要退出,或者释放内存,将当前进程作为OOM候选者,然后唤醒OOM reaper去收割进而释放内存。

        mark_oom_victim(current);

        wake_oom_reaper(current);

        return true;---------------------当前进程由于自身原因将要推出,OOM则将其标注为TIF_MEMDIE状态;然后唤醒OOM Reaper去处理。不需要经过下面的打分和杀死流程。

    }

    if (oc->gfp_mask && !(oc->gfp_mask & (__GFP_FS|__GFP_NOFAIL)))-----------如果内存申请掩码包括__GFP_DS或__GFP_NOFAIL,则不进行OOM收割。

        return true;

    constraint = constrained_alloc(oc);--------------------------------------未定义CONFIG_NUMA返回CONSTRAINT_NONE。

    if (constraint != CONSTRAINT_MEMORY_POLICY)

        oc->nodemask = NULL;

    check_panic_on_oom(oc, constraint);--------------------------------------检查sysctl_panic_on_oom设置,以及是否由sysrq触发,来决定是否触发panic。

    if (!is_memcg_oom(oc) && sysctl_oom_kill_allocating_task &&--------------如果设置了sysctl_oom_kill_allocating_task,那么当内存耗尽时,会把当前申请内存分配的进程杀掉。

        current->mm && !oom_unkillable_task(current, NULL, oc->nodemask) &&

        current->signal->oom_score_adj != OOM_SCORE_ADJ_MIN) {

        get_task_struct(current);

        oc->chosen = current;

        oom_kill_process(oc, "Out of memory (oom_kill_allocating_task)");

        return true;

    }

    select_bad_process(oc);-------------------------------------------------遍历所有进程,进程下的线程,查找合适的候选进程。即得分最高的候选进程。

    /* Found nothing?!?! Either we hang forever, or we panic. */

    if (!oc->chosen && !is_sysrq_oom(oc) && !is_memcg_oom(oc)) {------------如果没有合适候选进程,并且OOM不是由sysrq触发的,进入panic。

        dump_header(oc, NULL);

        panic("Out of memory and no killable processes...\n");

    }

    if (oc->chosen && oc->chosen != (void *)-1UL) {

        oom_kill_process(oc, !is_memcg_oom(oc) ? "Out of memory" :

                "Memory cgroup out of memory");----------------------------杀死选中的进程。

        schedule_timeout_killable(1);

    }

    return !!oc->chosen;

}

select_bad_process()通过oom_evaluate_task()来评估每个进程的得分,对于进程1、内核线程、得分低的进程直接跳过。

static void select_bad_process(struct oom_control *oc)

{

    if (is_memcg_oom(oc))

        mem_cgroup_scan_tasks(oc->memcg, oom_evaluate_task, oc);

    else {

        struct task_struct *p;

        rcu_read_lock();

        for_each_process(p)----------------------------------------------遍历系统范围内所有进程线程。

            if (oom_evaluate_task(p, oc))

                break;

        rcu_read_unlock();

    }

    oc->chosen_points = oc->chosen_points * 1000 / oc->totalpages;

}

static int oom_evaluate_task(struct task_struct *task, void *arg)

{

    struct oom_control *oc = arg;

    unsigned long points;

    if (oom_unkillable_task(task, NULL, oc->nodemask))-------------------进程1以及内核线程等等不能被kill的线程跳过。

        goto next;

    if (!is_sysrq_oom(oc) && tsk_is_oom_victim(task)) {

        if (test_bit(MMF_OOM_SKIP, &task->signal->oom_mm->flags))

            goto next;

        goto abort;

    }

    if (oom_task_origin(task)) {

        points = ULONG_MAX;

        goto select;

    }

    points = oom_badness(task, NULL, oc->nodemask, oc->totalpages);------对进程task进行打分。

    if (!points || points < oc->chosen_points)---------------------------这里保证只取最高分的进程,所以分数最高者被选中。其他情况则直接跳过。

        goto next;

    /* Prefer thread group leaders for display purposes */

    if (points == oc->chosen_points && thread_group_leader(oc->chosen))

        goto next;

select:

    if (oc->chosen)

        put_task_struct(oc->chosen);

    get_task_struct(task);

    oc->chosen = task;--------------------------------------------------更新OOM选中的进程和当前最高分。

    oc->chosen_points = points;

next:

    return 0;

abort:

    if (oc->chosen)

        put_task_struct(oc->chosen);

    oc->chosen = (void *)-1UL;

    return 1;

}

在oom_badness()中计算当前进程的得分,返回选中进程的结构体,以及进程得分ppoints。

oom_badness()是给进程打分的函数,可以说是核心中的核心。最终结果受oom_score_adj和当前进程内存使用量综合影响。

oom_score_adj为OOM_SCORE_ADJ_MIN的进程不参加评选。进程的oom_score_adj值在/proc/xxx/oom_score_adj中。

mm->flags为MMF_OOM_SKIP的进程不参加评选。

处于vfork()中的进程不参加评选。

进程的得分取决于其消耗的RSS部分内存(文件映射内存MM_FILEPAGES、匿名映射内存MM_ANONPAGES、shmem内存MM_SHMEMPAGES)、匿名交换内存MM_SWAPENTS、PTE页表所占内存、PMD页表所占内存。

具有root权限的进程只取其97%的得分参加评选。

所以进程得分points=process_pages + oom_score_adj*totalpages/1000;如果是root权限的进程points=process_pages*0.97 + oom_score_adj*totalpages/1000。

在oom_score_adj都为0(默认值)的情况下,最终得分跟进程自身消耗的内存有关;消耗的内存越大越容易被Kill。

oom_score_adj每降低1,可以多获得系统内存资源的1/1000使用量。反之,每增加1,则少获得系统内存资源1/1000使用量。

unsigned long oom_badness(struct task_struct *p, struct mem_cgroup *memcg,

              const nodemask_t *nodemask, unsigned long totalpages)

{

    long points;

    long adj;

    if (oom_unkillable_task(p, memcg, nodemask))-------------------------------如果进程不可被杀,直接跳过。

        return 0;

    p = find_lock_task_mm(p);------------找到进程p,并使用task_lock()锁上。

    if (!p)

        return 0;

    /*

    * Do not even consider tasks which are explicitly marked oom

    * unkillable or have been already oom reaped or the are in

    * the middle of vfork

    */

    adj = (long)p->signal->oom_score_adj;--------------------------------------获取当前进程的oom_score_adj参数。

    if (adj == OOM_SCORE_ADJ_MIN ||

            test_bit(MMF_OOM_SKIP, &p->mm->flags) ||

            in_vfork(p)) {

        task_unlock(p);

        return 0;--------------------------------------------------------------如果当前进程oom_score_adj为OOM_SCORE_ADJ_MIN的话,就返回0.等于告诉OOM,此进程不参数'bad'评比。

    }

    /*

    * The baseline for the badness score is the proportion of RAM that each

    * task's rss, pagetable and swap space use.

    */

    points = get_mm_rss(p->mm) + get_mm_counter(p->mm, MM_SWAPENTS) +

        atomic_long_read(&p->mm->nr_ptes) + mm_nr_pmds(p->mm);-----------------可以看出points综合了内存占用情况,包括RSS部分、swap file或者swap device占用内存、以及页表占用内存。

    task_unlock(p);

    /*

    * Root processes get 3% bonus, just like the __vm_enough_memory()

    * implementation used by LSMs.

    */

    if (has_capability_noaudit(p, CAP_SYS_ADMIN))------------------------------如果是root用户,增加3%的使用特权。

        points -= (points * 3) / 100;

    /* Normalize to oom_score_adj units */

    adj *= totalpages / 1000;--------------------------------------------------这里可以看出oom_score_adj对最终分数的影响,如果oom_score_adj小于0,则最终points就会变小,进程更加不会被选中。

    points += adj;-------------------------------------------------------------将归一化后的adj和points求和,作为当前进程的分数。

    /*

    * Never return 0 for an eligible task regardless of the root bonus and

    * oom_score_adj (oom_score_adj can't be OOM_SCORE_ADJ_MIN here).

    */

    return points > 0 ? points : 1;

}

https://www.cnblogs.com/arnoldlu/p/8567559.html#oom_badness


宁乡县17752231240: 说好的 OOM Killer 去哪了 -
狐桦吡喹: 这里就涉及到一个问题,到底Kill掉谁呢?一般稍微了解一些Linux内核的同学第一反应是谁用的最多,就Kill掉谁.这当然是Linux内核首先考虑的一种重要因素,但是也不完全是这样的,我们查一些Linux的内核方面的资料,可以知道其实Kill谁是...

宁乡县17752231240: 如何查看进程OOM killer -
狐桦吡喹: 如果是找出java程序的进程PID,pidof就无能为力了,可以使用ps -ef|grep java或jps -l来查看java进程的信息.通常找出进程PID的目的是确认程序是否在运行、或者为了把它杀掉、或者发送一个信号给它.常用参数格式:pidof program 找出...

宁乡县17752231240: linux oom 内存超过多少会被kill -
狐桦吡喹: OOM_killer是Linux自我保护的方式,当内存不足时不至于出现太严重问题,有点壮士断腕的意味 在kernel 2.6,内存不足将唤醒oom_killer,挑出/proc//oom_score最大者并将之kill掉 为了保护重要进程不被oom-killer掉,我们可以:echo -17 > /...

宁乡县17752231240: linux出现out of memory是什么问题 -
狐桦吡喹: 有两种方法可以解决这个问题 1、如果可能,请升级到64位系统. 这是最好的解决办法,因为所有的内存都将成为low memory.如果你在这种情况下耗尽了low memory,那就真的是out of memory了. 2、如果受限于必须使用32位系统,最好的...

宁乡县17752231240: 为什么我的程序会被Linux自动KILL掉 -
狐桦吡喹: 是不是促发了oom.Linux 下有个特性叫作 OOM killer(Out of Memory),从字面的意思可以看出和内存溢出相关,当内存耗尽时,该问题就会出现.在Linux2.6.内核中,当该功能打开后,在内存耗尽时,会根据一定的值计算出一个合适的用户空间的进程给kill掉,以便释放更多的内存,保证整个系统的稳定运行.

宁乡县17752231240: linux进程被oom killer怎么查日志 -
狐桦吡喹: -HUP是发送HUP信号给进程1234,然后标准输出重定向到killout.txt,标准错误重定向到killerr.txt,2是标准错误的file handler,1是标准输出

宁乡县17752231240: 如何确认linux内核已经开启cgroup和namespace功能 -
狐桦吡喹: Cgroup和Namespace在测试中的使用(上) 很多时候需要测试程序在资源受限情况下的表现,普通的做法可能是不断对系统加压使能够分配给目标程序的资源变少,换另一个思路思考,可以尝试限制分配给目标程序的资源总数,使...

宁乡县17752231240: 如何避免mysql被oom - killer杀死 -
狐桦吡喹: TasKiller可以通过点击程序图标来一键关闭正在运行的程序,也可以通过它来切换程序.长按可查看程序详情,非常的方便.TasKiller可以释放内存,保持Android手机更流畅的运行.俗称“任务终结者”

宁乡县17752231240: linux 环境下进程什么时候会被 killed掉 -
狐桦吡喹: OS:cent os 6.5 日志路径:/var/log/messages 服务器上跑的一个程序,发现报了Killed.查看/var/log/messages里的日志,发现以下报错:[plain] view plain copy Aug 11 16:28:11 kernel: Out of memory: Kill process 3080 (forward) score 559 or ...

宁乡县17752231240: lowmemorykiller的log说明内存低吗 -
狐桦吡喹: Low Memory Killer(低内存管理) 对于PC来说,内存是至关重要.如果某个程序发生了内存泄漏,那么一般情况下系统就会将其进程Kill掉.Linux中使用一种名称为OOM(Out Of Memory,内存不足)的机制来完成这个任务,该机制会在系统内存不足的情况下,选择一个进程并将其Kill掉.Android则使用了一个新的机制——Low Memory Killer来完成同样的任务.Lowmemory killer是android基于oom killer做了改进.两者区别: Oom killer: 当系统内存不足时,会根据当前进程的内存使用状况以及oom score来Kill掉某个进程.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网