安装检查 list
-
apt 换源
-
文件系统
- zfs 快照,恢复(可选)
-
docker
https://docs.docker.com/engine/install/ubuntu/
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
修改 /etc/docker/daemon.json
修改 docker root 到本地机械硬盘
-
nvidia 驱动,nvidia-container-toolkit,nvidia-cuda-toolkit
修改 /etc/docker/daemon.json
apt install nvidia-driver-550-server-open --no-install-recommends linux-modules-nvidia-550-server-open-generichttps://mirrors.ustc.edu.cn/help/libnvidia-container.html
关闭 nvidia 驱动自动更新(一个 N 卡的 bug,每次开机 N 卡只能由 driver 初始化一次,此后若驱动改变,需要重启才能生效),若不关闭,每次自动更新后都需要重启机器,比较麻烦。
-
vpn(enable)
-
NFS(双向)
-
slurm,pyxis 插件
enroot 路径要修改到 777 的位置
-
zsh
-
监控 telegraf
-
GPU
-
Persistence(必选)
systemctl edit nvidia-persistenced.service中加入 -
Exclusive(可选)
-
-
时间
* 时区: ``` dpkg-reconfigure tzdata # Asia-Shanghai ``` * 时间同步,在 `/etc/systemd/timesyncd.conf.d/ustc.conf` 中写入 ```ini [Time] NTP=time.ustc.edu.cn ``` 并重启 systemd-timesyncd 服务(或直接重启) -
用户创建
从其他系统导入普通用户
记得把所有用户都加入 docker 用户组
-
编辑 /etc/adduser.conf 把 USERGROUPS 取消注释,并改成 no
-
~~将 ada-709 root 的公钥加入新机器的 /root/.ssh/authorized_key,然后在 ada-709 的 ada-adduser.sh 脚本中添加
ssh <server-name> "$CMD"一行~~ -
修改管理员文档
-
ssh 服务 enable,禁用 ssh 密码登录
/etc/ssh/sshd_config.d/ustc.conf 中写入:
-
wlt