Java自学者论坛

 找回密码
 立即注册

手机号码,快捷登录

恭喜Java自学者论坛(https://www.javazxz.com)已经为数万Java学习者服务超过8年了!积累会员资料超过10000G+
成为本站VIP会员,下载本站10000G+会员资源,会员资料板块,购买链接:点击进入购买VIP会员

JAVA高级面试进阶训练营视频教程

Java架构师系统进阶VIP课程

分布式高可用全栈开发微服务教程Go语言视频零基础入门到精通Java架构师3期(课件+源码)
Java开发全终端实战租房项目视频教程SpringBoot2.X入门到高级使用教程大数据培训第六期全套视频教程深度学习(CNN RNN GAN)算法原理Java亿级流量电商系统视频教程
互联网架构师视频教程年薪50万Spark2.0从入门到精通年薪50万!人工智能学习路线教程年薪50万大数据入门到精通学习路线年薪50万机器学习入门到精通教程
仿小米商城类app和小程序视频教程深度学习数据分析基础到实战最新黑马javaEE2.1就业课程从 0到JVM实战高手教程MySQL入门到精通教程
查看: 873|回复: 0

深度学习多机多卡解决方案-purine

[复制链接]
  • TA的每日心情
    奋斗
    2024-11-24 15:47
  • 签到天数: 804 天

    [LV.10]以坛为家III

    2053

    主题

    2111

    帖子

    72万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    726782
    发表于 2021-6-17 09:29:19 | 显示全部楼层 |阅读模式

    未经允许请不要转载,原作者:zhxfl,http://www.cnblogs.com/zhxfl/p/5287644.html

    目录:

    一、简介

    二、环境配置

    三、运行demo

    四、硬件配置建议

    五、其他

     

    一、简介

    深度学习多机多卡集群已经成为主流,相对于caffe和mxnet这两个比较活跃的开源,purine显得更值得在高校的学生细读,因为purine的代码显得更加短小精悍,作者的C++功力也相当浑厚,其采用的思想也是非常有价值和启发性的。但是purine已经停止维护,所以其实并不适合企业用户,但是依然有很大的学术价值,特别适合高校研究软件体系结构,深度学习,甚至机器学习GPU集群性能优化等方向的学生阅读。

    二、环境配置

    2.1、支持C++11

    由于purine使用了C++11的标准,所以在ubuntu执行安装gcc-4.8和g++-4.8的命令,此外,为了避免多个版本冲突的问题,可以把其他版本的都卸载掉,免得要去管理和切换编译器的版本。这里我选的是gcc-4.8

    1 sudo apt-get --yes --force-yes remove gcc-4.6 g++-4.6 gcc-4.7 g++-4.7 gcc-4.9 g++-4.9
    2 sudo apt-get update
    3 sudo apt-get --yes --force-yes install gcc-4.8 g++-4.8
    4 sudo apt-get --yes --force-yes install gfortran

    2.2、安装CUDA和CUDNN

    这里我使用的是CUDA-7.0版本,目前知道的是支持的版本有(6.5,7.0,7.5)。需要注意的是,如果安装了其他版本的CUDA,需要先卸载原来版本的CUDA才能安装新的,避免冲突。
    卸载CUDA的方法如下:

    1 sudo perl /usr/local/cuda/bin/uninstall_cuda_7.5.pl

    卸载完原来版本的CUDA之后,需要卸载ubuntu自带的驱动,因为CUDA的安装包中已经自带了相应的驱动。

    1 sudo apt-get --yes --force-yes remove nvidia*

    由于桌面会占用驱动导致CUDA无法安装显卡驱动,所以在安装CUDA之前,需要先关闭桌面,再执行CUDA的安装包,cuda的安装包可以从官方网站下载:https://developer.nvidia.com/cuda-downloads

    1 sudo /etc/init.d/lightdm stop
    2 sudo sh ./cuda_7.5.18_linux.run

    接下来需要配置cudnn,cudnn是NVIDIA官方维护的深度学习加速库,在某种程度上将,这个库的性能是最快的,所以purine也借用了cudnn来优化性能。cudnn下载前要先注册和申请,稍微比较麻烦一点,地址如下:https://developer.nvidia.com/cudnn,我使用的是cudnn7.0的版本,直接解压然后把对应的文件拷贝到cuda的安装目录即可。

    1 sudo tar -xvf ./cudnn-7.0-linux-x64-v3.0-prod.tgz
    2 sudo mv ./cuda/include/* /usr/local/cuda/include/
    3 sudo mv ./cuda/lib64/* /usr/local/cuda/lib64/
    4 sudo rm -rf cuda/

    2.3、安装libuv

    libuv是一个异步编程的C++库,通过libuv可以很容易实现“事件”,“线程同步”,“线程等待”,“线程池”等逻辑。libuv是个开源库,可以现在源码下来编译:https://github.com/libuv/libuv,我使用的是1.x的版本。

    先安装libuv依赖库:

    1 sudo apt-get --yes --force-yes install aptitude
    2 sudo apt-get --yes --force-yes install libtool automake autoconf autogen

    解压下载的安装包进行编译和安装:

     1 echo "Install libuv"
     2 rm -rf ./libuv-1.x.zi
     3 sudo unzip libuv-1.x.zip
     4 cd ./libuv-1.x/
     5 sudo sh autogen.sh
     6 sudo ./configure/
     7 sudo make -j4
     8 sudo make install
     9 cd ../
    10 rm -rf ./libuv-1.x/

    2.4、CMake安装

    CMake是一个跨平台组织编译依赖的工具,可以下载源码进行安装编译,建议使用3.3.2或者以上的版本,一方面是因为我验证过了,第二方面是因为CMAKE对CUDA的支持较晚,建议不要使用3.3.2以下的版本,避免做无用功,CMAKE下载地址https://cmake.org/

    1 echo "cmake install"
    2 rm -rf ./cmake-3.3.2
    3 sudo tar -xvf ./cmake-3.3.2.tar.gz
    4 cd ./cmake-3.3.2/
    5 ./configure
    6 make -j 4
    7 sudo make install
    8 cd ../
    9 rm -rf ./cmake-3.3.2

    2.5、安装opencv

    opencv是一个图像处理的库,caffe和purine依赖于这个库,建议选择3.0以上的版本,http://opencv.org/downloads.html,这里我使用的是3.0版本,并且使用源码进行编译,此外,建议关闭WITH_CUDA 和 WITH_IPP,因为这两个实际上在purine的项目里面用不上,命令如下:

     1 echo "Install opencv"
     2 sudo apt-get remove libopencv-dev
     3 rm -rf opencv-3.0.0/
     4 sudo unzip ./opencv-3.0.0.zip
     5 cd ./opencv-3.0.0/
     6 cmake -D WITH_CUDA=OFF -D WITH_IPP=OFF .
     7 make -j 4
     8 sudo make install
     9 cd ../
    10 rm -rf opencv-3.0.0/

    2.6、安装MPI

    MPI是一套并行编程的接口,其主要是依赖于SPMD(单个程序,多个数据流,具体到集群就是每个节点所处理的逻辑都是一样的,但是数据流不一样)思想进行编程设计的,由于purine只支持mpich,所以我使用的版本是mpich-3.2b4,地址如下:https://www.mpich.org/2015/07/25/mpich-3-2b4-released/

    1 echo "Install mpich"
    2 rm -rf ./mpich-3.2b4/
    3 tar -xvf ./mpich-3.2b4.tar.gz
    4 cd ./mpich-3.2b4/
    5 ./configure
    6 make -j 4
    7 sudo make install
    8 cd ../
    9 rm -rf ./mpich-3.2b4/

    2.7、其他依赖:

    1 #sudo apt-get --yes --force-yes install libprotobuf-dev libleveldb-dev libsnappy-dev libboost-all-dev libhdf5-serial-dev libgflags-dev libgoogle-glog-dev liblmdb-dev protobuf-compiler
    2 sudo apt-get --yes --force-yes install libprotobuf-dev libgflags-dev libgoogle-glog-dev liblmdb-dev protobuf-compiler libboost-dev
    3 sudo apt-get --yes --force-yes install libatlas-base-dev libatlas3gf-base
    4 sudo apt-get install libatlas-base-dev libatlas3gf-base

    三、运行demo

    3.1 编译

    先从git上把代码拉下来,原作者的官网在https://github.com/purine/purine2,但是原来git上的工程不能编译通过,其发布的CMakeList.txt有一些bug导致无法编译。也可以使用我fork的分支https://github.com/zhxfl/purine2,我的分支将cmakelist.txt做了修改保证其能正常编译。我后续还在上面做了不少改进的尝试,不过都是增量维护的,并没有曲解作者的初衷,所以可以放心使用我的分支代码。

    1 git clone https://github.com/zhxfl/purine2

    代码下载下来之后,使用下面命令进行编译,如果这里"cmake ."命令没有顺利通过,可以联系我"zhxfl##mail.ustc.edu.cn",将“##”替换为@,可能是我前面描述少了导致某些依赖出了问题。

    1 cd purine2/
    2 cmake .
    3 make -j2

    3.2 demo数据库制作

    这里选用cifar-10数据集,运行

    1 ~/tmp/purine2/data/cifar-10/get_cifar10.sh

    到purine根目录下执行cifar10_data生成数据库,代码如下,这里强调一下,因为代码利用的是相对目录,所以必须在purine2/目录下执行,执行完毕之后会在purine2/data/cifar-10目录下会生成两个数据库文件cifar-10-train-lmdb和cifar-10-test-lmdb两个目录。

    ./test/cifar10_data

    3.3 单机多卡

     运行demo之前,需要先配置两个文件,parallel_config文件中加入

    0 0 64
    0 1 64

    这三个参数分别表示(机器编号,显卡标号,迭代对应的batch_size)

    接下来要配置一下HOSTFILE文件,填入本机的IP地址,一个地址一行,接下来使用如下命令启动purine运行,该命令表示启动两个进程,

    mpirun -n 1 -hostfile HOSTFILE ./test/nin_cifar10

    3.4 多机多卡

    1、在进行多机多卡之前,在不同机器之间配置一下ssh无密码认证

    2、确认不同机器之间已经可以无密码认证之后,先配置一下每台机器上的hosts文件,给每个机器取一个名字,比如我们有两个节点,分别为A,B,其中A上面有两块显卡。那么parallel_config文件配置如下:

    0 0 64
    0 1 64
    1 0 64

    HOSTFILE

    A
    B

    将这两个配置文件拷贝到不同机器的purine目录下,这里要保证每台机器都有purine目录,并且其可执行文件都是一样的,此外,由于我们没有分布式文件系统,所以必须保证每台机器上都有数据。

    接下来执行如下命令:

    mpirun -n 2 -hostfile HOSTFILE ./test/nin_cifar10

    此外,所有log都保存在系统/tmp/目录下

    四、硬件配置建议

    如果是用于学术研究而不是商业化,推荐一个经济实惠的硬件方案:

    1、显卡:titianx显卡2个,gtx98ti也可以,

    2、主板可以选可以插几块显卡的,一般也就几千块钱,如“技嘉LGA2011-3 GA-X99”

    机箱和电源什么让供应商配就行了,整个解决方案可以控制在2,3w之间。

    五、其他

    如果你不是研究集群性能的,只是有做做实验,甚至希望在windows上进行开发和研究,

    可以考虑我们实验室的其他开源CUDA-CNNCUDA-MCDNN,我们大部分修改算法的尝试都是在这两个项目上进行的。

    如果有其他问题,可以联系我:zhxfl##mail.ustc.edu.cn


     

    哎...今天够累的,签到来了1...
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|手机版|小黑屋|Java自学者论坛 ( 声明:本站文章及资料整理自互联网,用于Java自学者交流学习使用,对资料版权不负任何法律责任,若有侵权请及时联系客服屏蔽删除 )

    GMT+8, 2025-1-5 10:46 , Processed in 0.059543 second(s), 29 queries .

    Powered by Discuz! X3.4

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表