拆解算力芯片:15年从业者聊聊百花齐放的背后
最近这波AI热潮,特别是ChatGPT出来以后,大伙儿都盯着算力芯片看。我干这行十五年,从最早的工控板卡到现在的AI服务器,也算见证了算力芯片怎么一步步从“够用就行”变成“多多益善”。今儿咱就掰扯掰扯,这些芯片到底有啥不同,怎么选、怎么用,顺便聊聊我这些年踩过的坑。
先说说啥是算力。按《中国算力发展指数白皮书》的说法,算力就是设备处理数据、输出结果的本事。说白了,就像咱工地上搬砖,力气大就能搬得多、搬得快。这力气全靠CPU、GPU这些芯片撑着,服务器、电脑、手机都靠它们。
不同场景对算力的要求天差地别。拿数据中心来说,那都是E级算力起步,百亿亿次运算每秒,未来还要往千E级冲。这种地方对芯片的要求就一个字:稳。功耗、成本、可靠性、通用性,哪个都不能马虎。我前几年给一个超算中心干过活,那里面用的芯片,光散热方案就折腾了大半年,风扇、水冷、液冷全试过,最后还是液冷靠谱,但成本直接翻倍。
智能驾驶这块儿,算力需求更是夸张。L2级别10TOPS以下就够了,到了L5得4000+TOPS。蔚来ET5的芯片算力1016TOPS,小鹏P7也有508TOPS,比咱手机、电脑强多了。但这里头有个坑:算力高不等于好用。我碰过好几个项目,芯片算力标得挺高,实际跑起来各种卡顿,后来一查,是算法优化没跟上。所以选芯片不能光看参数,得跟算法团队好好聊聊。
智能安防系统,像视频监控、人脸识别这些,4-20TOPS的算力就够了。这活儿看着简单,但实际施工时特别容易出问题。比如摄像头装在高处,信号传输距离远,算力芯片的功耗和散热就得格外注意。我有一回给一个园区装监控,用的芯片标称功耗10W,结果夏天一晒,温度飙到70度,直接死机。后来换了低功耗版本,加了个小风扇,才算搞定。所以做安防,别光图便宜,散热和可靠性才是关键。
手机、笔记本这类移动终端,算力需求也在涨。iPhone 12的A14芯片11TOPS,小米10的骁龙865是15TOPS,到了骁龙888就26TOPS了,8Gen1、8Gen2更是往上飙。但这里头有个省钱技巧:别盲目追新。比如骁龙888发热严重,实际体验还不如调校好的865。选芯片得看整体方案,不是数字越大越好。

聊完场景,再掰扯掰扯芯片本身。CPU是老大哥,通用计算之王,啥活都能干,但效率一般。GPU呢,原本是搞图形渲染的,后来发现做AI计算特别带劲,因为它的并行计算能力超强。ASIC是专用芯片,针对特定任务设计,效率最高,但灵活性差。FPGA介于两者之间,能编程,速度快,适合小批量、快速迭代的产品。
这里头有个小技巧:很多人以为FPGA比ASIC差,其实未必。我做过一个项目,用FPGA做加速卡,因为算法还没定型,改了好几次。要是直接流片做ASIC,一次修改就得几十万打水漂。所以,如果产品还在试错阶段,FPGA是省钱利器。等算法稳定了,再转ASIC,性价比最高。
GPGPU算是个混血儿,把GPU的并行能力拿来干通用计算的活儿。比如科学计算、数据分析、机器学习,它都能干。你可以把它理解成CPU的“帮手”,专门处理那些能拆成很多小任务的工作。

说到AI,GPU现在确实是老大。英伟达的GPU,一块卡能顶几十台CPU服务器。训练和推理AI模型,靠的就是矩阵运算、卷积这些,GPU的并行单元正好派上用场。但GPU也不是无敌的。供应链紧张,价格涨得离谱,而且功耗高、散热难搞。我有个朋友做AI创业,光买GPU卡就花了上千万,结果等货等了半年,项目都黄了。
那GPU是唯一解吗?我看未必。CPU在某些场景下也能发光。比如HuggingFace那个Q8-Chat模型,70亿参数,在32核的Intel Xeon上跑得比ChatGPT还快。这说明啥?小模型、精简模型,用CPU反而更经济、更省电。另外,CPU+FPGA、CPU+ASIC这些异构架构,也很有潜力。CPU负责逻辑控制,FPGA或ASIC负责加速,分工明确,效率高。
我去年参与过一个项目,就是CPU+FPGA的方案。刚开始大家都不看好,觉得FPGA开发太麻烦。但实际跑下来,功耗比GPU方案低了30%,延迟也小。虽然开发周期长了点,但长期来看,运维成本省了一大截。所以,别光盯着GPU,多看看其他组合,说不定有惊喜。

最后说两句国产芯片。龙芯、申威、海光、兆芯、鲲鹏、飞腾,这几家这几年进步挺快。虽然跟英特尔、AMD比还有差距,但在特定领域,比如信创、政务系统,已经能用了。我建议做项目的兄弟们,别一上来就迷信进口货,国产芯片性价比高,而且供货稳定,关键时候能救命。
总的来说,算力芯片这行,现在是百花齐放。没有哪种芯片是万能的,关键得看你的应用场景、预算、开发周期。干这行十五年,我最大的体会就是:别跟风,别迷信参数,多动脑子,多试错。踩过的坑,都是学费,但交完了,就得长记性。