安装检查 list

  1. apt 换源

  2. 文件系统

    • zfs 快照,恢复(可选)
  3. docker

    https://docs.docker.com/engine/install/ubuntu/

    https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html

    修改 /etc/docker/daemon.json

    修改 docker root 到本地机械硬盘

  4. nvidia 驱动,nvidia-container-toolkit,nvidia-cuda-toolkit

    修改 /etc/docker/daemon.json

    apt install nvidia-driver-550-server-open --no-install-recommends linux-modules-nvidia-550-server-open-generic
    

    https://mirrors.ustc.edu.cn/help/libnvidia-container.html

    关闭 nvidia 驱动自动更新(一个 N 卡的 bug,每次开机 N 卡只能由 driver 初始化一次,此后若驱动改变,需要重启才能生效),若不关闭,每次自动更新后都需要重启机器,比较麻烦。

    apt-mask hold <nvidia-driver-??>
    # e.g. apt-mark hold nvidia-driver-server-550-open
    
  5. vpn(enable)

  6. NFS(双向)

  7. slurm,pyxis 插件

    enroot 路径要修改到 777 的位置

  8. zsh

  9. 监控 telegraf

  10. GPU

    • Persistence(必选)

      systemctl edit nvidia-persistenced.service 中加入

      [Service]
      ExecStartPost=/usr/bin/nvidia-smi -pm ENABLED
      
    • Exclusive(可选)

      [Service]
      ExecStartPost=/usr/bin/nvidia-smi -c EXCLUSIVE_PROCESS
      
  11. 时间

    * 时区:
    
        ```
        dpkg-reconfigure tzdata # Asia-Shanghai
        ```
    
    * 时间同步,在 `/etc/systemd/timesyncd.conf.d/ustc.conf` 中写入
    
        ```ini
        [Time]
        NTP=time.ustc.edu.cn
        ```
    
        并重启 systemd-timesyncd 服务(或直接重启)
    
  12. 用户创建

    从其他系统导入普通用户

    记得把所有用户都加入 docker 用户组

  13. 编辑 /etc/adduser.conf 把 USERGROUPS 取消注释,并改成 no

  14. ~~将 ada-709 root 的公钥加入新机器的 /root/.ssh/authorized_key,然后在 ada-709 的 ada-adduser.sh 脚本中添加 ssh <server-name> "$CMD" 一行~~

  15. 修改管理员文档

  16. ssh 服务 enable,禁用 ssh 密码登录

    /etc/ssh/sshd_config.d/ustc.conf 中写入:

    PasswordAuthentication no
    ClientAliveInterval 20
    ClientAliveCountMax 6
    
  17. wlt