目录
- 发现
- 分析
- 解决
- 总结
发现
在使用了 nvidia/cuda:9.0-cudnn7-devel-ubuntu16.04
作为底层镜像后,重新构建了pytorch
的底层镜像做为应用的基础镜像,一切都构建的很顺利,就是在正常启动镜像的时候,出现了如下的错误
CUDA driver version is insufficient for CUDA runtime version
分析
按照以往的经验 ,无非是没有使用nvidia-docker
启动,又或者当前实体机的nvidia driver 版本和docker 镜像内的版本不一致,那我们一个一个排除,在使用nvidia-docker 启动镜像后,正常使用docker-compose启动应用,使用命令查看cuda和cudnn版本
1 2 |
nvcc --version |
输出
1 2 3 4 5 |
nvcc: NVIDIA (R) Cuda compiler driver Copyright (c) 2005-2017 NVIDIA Corporation Built on Fri_Sep__1_21:08:03_CDT_2017 Cuda compilation tools, release 9.0, V9.0.176 |
这里对比cuda 版本都是一致的,进一步查看cudnn版本
1 2 |
cat /usr/include/x86_64-linux-gnu/cudnn_v*.h | grep CUDNN_MAJOR -A 2 |
输出
1 2 3 4 5 6 |
#define CUDNN_MAJOR 7 #define CUDNN_MINOR 1 #define CUDNN_PATCHLEVEL 4 -- #define CUDNN_VERSION (CUDNN_MAJOR * 1000 + CUDNN_MINOR * 100 + CUDNN_PATCHLEVEL) |
这里最奇怪的是cudnn版本也是一致的…
解决
分析到这里,我想应该有同学猜到,可能是环境变量不一致导致的,查找关于cuda的所有环境变量发现
实体机:
1 2 |
LD_LIBRARY_PATH=/usr/local/cuda-9.0/lib64 |
docker 内部
1 2 |
LD_LIBRARY_PATH=/usr/local/nvidia/lib:/usr/local/nvidia/lib64 |
为了验证这个想法,这一次不直接使用docker-compose 直接启动应用,使用nvidia-docker run 镜像方式进入docker 内部,正常启动程序,没想启动成功了,OK,那可以完全肯定是环境变量导致的这个问题,为了进一步解决这个问题,我们有两种方式,一是每次部署的时候都要写好环境变量,二是在dockerfile 里面写好ENV,比如
1 2 3 4 5 6 7 8 9 10 11 12 13 |
FROM brucedone/torch:gpu MAINTAINER nicefish66@gmail.com ENV LD_LIBRARY_PATH /usr/local/nvidia/lib:/usr/local/nvidia/lib64 ENV LIBRARY_PATH /usr/local/cuda/lib64/stubs RUN mkdir /workdir COPY . /workdir RUN pip install -r /workdir/requirements.txt WORKDIR /workdir |
总结
这一次我们主要从错误的提示出发,验证了我们对于错误的猜想,时刻记住,对于docker host 的程序 ,环境变量对于应用程序来说相当重要。