咱们干弱电这行的,现在碰到的项目越来越离不开虚拟化,特别是需要图形加速的场景,比如设计院、3D渲染、甚至是桌面云。深信服超融合配上NVIDIA vGPU,确实能解决不少问题,但卡就卡在那个授权服务器上。很多兄弟买了授权,结果搭不起来,白白浪费资源。今天我就把从买授权到跑起来的整个流程捋一遍,全是干货,你跟着一步步做就行。
首先,你得拿到那个vGPU授权服务器的虚拟机镜像,一般是`.vma`格式。在深信服超融合平台上,导入这个镜像,新建一台虚拟机,分配好资源(建议2核4G起步,硬盘40G就够)。启动之后,打开VNC控制台,看到登录界面,别管其他,直接输入`dls_system`回车。这一步是进系统的维护模式,很多新手上来敲root,半天进不去。
进去之后,第一件事就是配IP。执行这条命令:`/etc/adminscripts/set-static-ip-cli.sh`。它会让你输入网卡名、IP地址、子网掩码、网关。比如你设的是`10.70.0.230`,掩码`255.255.255.0`,网关`10.70.0.1`。配完记得用`ip addr show`看一眼,确认IP生效。这一步我踩过坑,如果你网卡名不对,命令会报错,常见的是`eth0`或者`ens192`,你看下系统里实际显示的是什么。
IP配好了,就用浏览器访问这个地址,比如`https://10.70.0.230`(注意是HTTPS)。第一次打开,你会看到一个“New Installation”的选项,点进去。接着它让你设一个密码,这个密码是登录本地授权后台用的。设好之后点“REGISTER”,系统会生成一串字符串,让你保存到本地文件——这玩意儿是用来重置密码的,千万别弄丢,否则以后进不去就只能重装了。
然后进入一个关键步骤:下载DLS实例Token。在页面上找到“SERVICE INSTANCE”,点击“Download DLS Instance Token”,会下载一个文件,保存好。这个Token是后面跟NVIDIA官网通信的凭证。
接下来,你需要登录NVIDIA的企业门户:`http://nvid.nvidia.com/dashboard/`。这里得用你们公司买授权时注册的账号。登录后,点“Create License Server”,给你的授权服务器起个名,写个描述,然后点“Next: Select features”。在这里选择你买到的vGPU授权类型和数量,比如GRID vPC、vDWS之类的,按实际填就行。
选好之后,点“CREATE SERVER”。创建成功后,在“SERVICE INSTANCES”里找到刚建的服务器,点“ACTION”,选“Upload DLS instance token”,把刚才下载的那个Token文件传上去。这一步是建立本地DLS和NVIDIA云端的连接。上传完后,还需要点“REGISTER”注册这个实例,不然授权下不来。
然后回到“LICENSE SERVERS” -> “LIST SERVERS”,找到你刚建的授权服务器,绑定刚才注册的DLS实例。绑定成功后,下载一个Bin文件,这个文件就是授权配置的载体。
现在,重新登录你的本地DLS虚拟机IP(就是之前配的那个`10.70.0.230`),在后台界面上传这个Bin文件。上传完成,授权能力就传递到本地了。这时候你会看到授权状态变成“Active”,说明服务器端搞定了。
接下来,还有一步:下载Client Config Token。在本地DLS后台里,找到下载选项,会得到一个`.tok`文件,比如`client_configuration_token_02-22-2022-21-02-42.tok`。这个文件是给3D客户端虚拟机用的。
**实际施工经验**:这一步最容易出幺蛾子。很多兄弟把`.tok`文件放到虚拟机里,但忘记重启NVIDIA服务,结果授权死活不生效。正确做法是:在Windows 3D虚拟机上,安装GRID驱动(必须是v13.0以上版本,旧版本不兼容新授权),然后把`.tok`文件复制到`C:\Program Files\NVIDIA Corporation\vGPULicensing\ClientConfigToken`目录下。接着打开CMD管理员模式,执行`net stop NvDisplayContainer && net start NvDisplayContainer`,或者干脆重启虚拟机。最后用`nvidia-smi -q`查看授权状态,显示“Licensed”才算成功。
**省钱技巧**:如果你只是测试环境,别买太多授权,NVIDIA企业门户上可以创建试用授权,有效期90天,足够你跑通整个流程。另外,DLS虚拟机别给太大资源,2核4G跑起来完全没问题,硬盘40G也够,别浪费超融合的存储空间。
最后,确认一切正常后,你就可以在超融合平台上给其他虚拟机分配vGPU资源了。记住,每台3D虚拟机都需要单独配置`.tok`文件,而且驱动版本必须匹配,否则会报错“No compatible driver”。这玩意儿一旦跑通,后面就简单了,无非是批量复制。
**踩过的坑**:有一次我帮客户搭,发现授权服务器总显示“未激活”,查了半天,原来是NVIDIA企业门户上的DLS实例和本地Token不匹配。原因是创建服务器时选错了授权类型,后来重新创建、重新上传Token才解决。所以每一步都要仔细核对,特别是授权类型和数量,别手滑。
整个流程走下来,大概需要一到两个小时,主要时间花在等NVIDIA官网响应和文件下载上。如果你网络慢,建议挂个代理。授权服务器跑起来之后,记得定期检查授权余量,别等用户报错了才发现授权不够用。
进去之后,第一件事就是配IP。执行这条命令:`/etc/adminscripts/set-static-ip-cli.sh`。它会让你输入网卡名、IP地址、子网掩码、网关。比如你设的是`10.70.0.230`,掩码`255.255.255.0`,网关`10.70.0.1`。配完记得用`ip addr show`看一眼,确认IP生效。这一步我踩过坑,如果你网卡名不对,命令会报错,常见的是`eth0`或者`ens192`,你看下系统里实际显示的是什么。
IP配好了,就用浏览器访问这个地址,比如`https://10.70.0.230`(注意是HTTPS)。第一次打开,你会看到一个“New Installation”的选项,点进去。接着它让你设一个密码,这个密码是登录本地授权后台用的。设好之后点“REGISTER”,系统会生成一串字符串,让你保存到本地文件——这玩意儿是用来重置密码的,千万别弄丢,否则以后进不去就只能重装了。
然后进入一个关键步骤:下载DLS实例Token。在页面上找到“SERVICE INSTANCE”,点击“Download DLS Instance Token”,会下载一个文件,保存好。这个Token是后面跟NVIDIA官网通信的凭证。
接下来,你需要登录NVIDIA的企业门户:`http://nvid.nvidia.com/dashboard/`。这里得用你们公司买授权时注册的账号。登录后,点“Create License Server”,给你的授权服务器起个名,写个描述,然后点“Next: Select features”。在这里选择你买到的vGPU授权类型和数量,比如GRID vPC、vDWS之类的,按实际填就行。
选好之后,点“CREATE SERVER”。创建成功后,在“SERVICE INSTANCES”里找到刚建的服务器,点“ACTION”,选“Upload DLS instance token”,把刚才下载的那个Token文件传上去。这一步是建立本地DLS和NVIDIA云端的连接。上传完后,还需要点“REGISTER”注册这个实例,不然授权下不来。
然后回到“LICENSE SERVERS” -> “LIST SERVERS”,找到你刚建的授权服务器,绑定刚才注册的DLS实例。绑定成功后,下载一个Bin文件,这个文件就是授权配置的载体。
现在,重新登录你的本地DLS虚拟机IP(就是之前配的那个`10.70.0.230`),在后台界面上传这个Bin文件。上传完成,授权能力就传递到本地了。这时候你会看到授权状态变成“Active”,说明服务器端搞定了。
接下来,还有一步:下载Client Config Token。在本地DLS后台里,找到下载选项,会得到一个`.tok`文件,比如`client_configuration_token_02-22-2022-21-02-42.tok`。这个文件是给3D客户端虚拟机用的。
**实际施工经验**:这一步最容易出幺蛾子。很多兄弟把`.tok`文件放到虚拟机里,但忘记重启NVIDIA服务,结果授权死活不生效。正确做法是:在Windows 3D虚拟机上,安装GRID驱动(必须是v13.0以上版本,旧版本不兼容新授权),然后把`.tok`文件复制到`C:\Program Files\NVIDIA Corporation\vGPULicensing\ClientConfigToken`目录下。接着打开CMD管理员模式,执行`net stop NvDisplayContainer && net start NvDisplayContainer`,或者干脆重启虚拟机。最后用`nvidia-smi -q`查看授权状态,显示“Licensed”才算成功。
**省钱技巧**:如果你只是测试环境,别买太多授权,NVIDIA企业门户上可以创建试用授权,有效期90天,足够你跑通整个流程。另外,DLS虚拟机别给太大资源,2核4G跑起来完全没问题,硬盘40G也够,别浪费超融合的存储空间。
最后,确认一切正常后,你就可以在超融合平台上给其他虚拟机分配vGPU资源了。记住,每台3D虚拟机都需要单独配置`.tok`文件,而且驱动版本必须匹配,否则会报错“No compatible driver”。这玩意儿一旦跑通,后面就简单了,无非是批量复制。
**踩过的坑**:有一次我帮客户搭,发现授权服务器总显示“未激活”,查了半天,原来是NVIDIA企业门户上的DLS实例和本地Token不匹配。原因是创建服务器时选错了授权类型,后来重新创建、重新上传Token才解决。所以每一步都要仔细核对,特别是授权类型和数量,别手滑。
整个流程走下来,大概需要一到两个小时,主要时间花在等NVIDIA官网响应和文件下载上。如果你网络慢,建议挂个代理。授权服务器跑起来之后,记得定期检查授权余量,别等用户报错了才发现授权不够用。
