一类有趣的无限缓存OOM现象
首先
想必大家都知道OOM
是啥吧,我就不扯花里胡哨的了,直接进入正题。先说一个背景故事,我司app扫码框架用的zxing
,在很长一段时间以前,做过一系列的扫码优化,稍微列一下跟今天主题相关的改动:
- 串行处理改成并发处理,
zxing
的原生处理流程是通过CameraManager
获取到一帧的数据之后,通过DecodeHandler
去处理,处理完成之后再去获取下一帧,我们给改成了线程池去调度:
- 单帧
decode
任务入队列之后立即获取下一帧数据 - 二维码识别成功则停止其他解析任务
- 为了有更大的识别区域,选择对整张拍摄图片进行解码,保证中心框框没对准二维码也能识别到
现象
当时测试反馈,手上一个很古老的 Android 5.0
的机器,打开扫一扫必崩,一看错误栈,是个OOM
。
机器找不到了,我就不贴现象的堆栈了(埋在时光里了,懒得挖了)。
排查OOM三板斧
板斧一、 通过一定手段,抓取崩溃时的或者崩溃前的内存快照
咦,一年前的hprof
文件还在?确实被我找到了。。。
从图中我们能获得哪些信息?
用户
OOM
时,byte
数组的java
堆占用是爆炸的用户
OOM
时,byte
数组里,有大量的3M
的byte
数组3M
的byte
数组是被zxing
的DecodeHandler$2
引用的
板斧二、从内存对照出发,大胆猜测找到坏死根源
我们既然知道了 大对象 是被 DecodeHandler$2
引用的,那么 DecodeHandler$2
是个啥呀?
mDecodeExecutor.execute(new Runnable() {
@Override
public void run() {
for (Reader reader : mReaders) {
decodeInternal(data, width, height, reader, fullScreenFrame);
}
}
});
所以稍微转动一下脑瓜子就能知道,必然是堆积了太多的 Runnable
,每个Runnable
持有了一个 data
大对象才导致了这个OOM
问题。
但是为啥会堆积太多 Runnable
呢?结合一下只有 Android 5.0
机器会OOM
,我们大胆猜测一下,就是因为这个机器消费(或者说解码)单张 Bitmap
太慢,同时像上面所说的,我们单帧decode
任务入队列之后立即获取下一帧数据并入队下一帧decode
任务,这就导致大对象堆积在了LinkedBlockingDeque
中。
OK,到这里原因也清楚了,改掉就完事了。
板斧三、 吃个口香糖舒缓一下心情
呵呵...
解决方案
解决方案其实很简单,从问题出发即可,问题是啥?我生产面包速度是一天10个,一个一斤,但是一天只能吃三斤,那岂不就一天就会多7斤囤货,假如囤货到了100斤地球会毁灭,怎么解决呢?
- 吃快点,一天吃10斤
- 少生产点,要么生产个数减少,要么生产单个重量减少,要么二者一起
- 生产前检查一下吃完没,吃完再生产都来得及,实在不行定个阈值觉得不够吃了再生产嘛。
那么自然而然的就大概知道有哪几种解决办法了:
- 生产的小点 - 隔几帧插一张全屏帧即可(如果要保留不在框框内也能解码的特性的话)
- 生产前检查一下吃完没 - 线程池的线程空闲时,才去
enqueue decode
任务 - 生产单个重量减少 - 限制队列大小
- blalala
总结
装模作样的总结一下。
这个例子是一年前遇到的,今天想水篇文章又突然想到了这个事就拿来写写,我总结为:线程池调度 + 进阻塞队列单任务数据过大 + 处理任务过慢
线程池调度任务是啥场景?
- 有个
Queue
,来了任务,先入队 - 有个
ThreadPool
,空闲了,从Queue
取任务。
那么,当入队的数据结构占内存太大,且 ThreadPool
处理速度小于 入队速度呢?就会造成 Queue
中数据越来越多,直到 OOM
。
扫一扫完美的满足了上面条件
入队频率足够高
入队对象足够大
处理速度足够慢。
在这个例子中,做的不足的地方:
追求并发未考虑机器性能
大对象处理不够谨慎
当然,总结是为了避免未来同样的惨案发生,大家可以想想还会有什么类似的场景吧,转动一下聪明的小脑袋瓜~
未来展望
装模作样展望一下,未来展望就是,以后有空多水水贴子吧(不是多水水贴吧)。
作者:邹阿涛涛涛涛涛涛
链接:https://juejin.cn/post/7141301214523686926
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。