• 正文
  • 相关推荐
申请入驻 产业图谱

实习生研报 | 从财报细节看英伟达历史

07/09 17:23
2825
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

前言:

这个报告是我的实习生王华斌的最新作品。他在我指导下正在持续收集AI模型、算力芯片领域的数据,计划撰写一系列的行业报告(包含但不限于GPU芯片领域、英伟达公司)。如果您对这方面的信息感兴趣,欢迎关注我的公众号,以免错过后续的系列文章当然,也欢迎您给予我们反馈,帮助我的实习生更快成长

另外,最近因为公众号推送政策改变,您关注的公众号的最新文章不会再自动推送给您了。所以如果您不想错过本公众号的文章信息,请务必将本公众号设置为星标,以免以面错过后续的重要文章。谢谢

正文:

实习生作者:王华斌 上海纽约大学在读

序言:

三十年前NVIDIA初创时,CPU作为计算机诞生以来的唯一计算形态,其统治地位无可撼动——整个软件生态都构建在CPU的指令集架构之上。尽管市场对计算需求的爆发催生了各类专用芯片,但摩尔定律的持续演进使CPU性能与晶体管资源同步增长,最终将许多专用功能如声卡、视频编解码、加密模块逐步吸收为CPU的指令集扩展,导致这些独立硬件逐渐消亡。然而,GPU却成为例外:三维图形渲染需求的无限潜力,促使黄仁勋与游戏产业形成技术共生,通过超越摩尔定律迭代速度的“黄氏定律”持续突破性能极限。最终,GPU凭借其大规模并行计算架构,在AI时代找到了新的使命——深度学习训练与推理的算力需求完美契合了GPU的流处理器设计,使其不再仅仅是CPU的附属,而是成长为独立的核心计算单元。随着CUDA生态的成熟和AI算力需求的爆发,GPU彻底摆脱了传统协处理器的定位,成为与CPU并驾齐驱的异构计算核心。本文通过分析英伟达各阶段的产品、财务状况和竞争对手,探讨公司改变计算机架构,从图形显卡厂商蜕变为计算巨头,市值二十五年增长五千倍的原因。(部分文字使用Deepseek修饰)

概览:

英伟达自2000年上市以来,在游戏显卡领域一直是垄断地位。随着PC的渗透率提升和电子游戏的发展,营收保持稳健增长。2023-2024年凭借AI机遇实现创纪录增速,重现初创期高增长态势。净利率方面,公司早期以游戏显卡为主业,净利率维持在15%-20%区间;通过持续拓展GPU应用场景,逐步提升盈利能力。随着数据中心业务爆发式增长,2023-2024年净利率突破50%大关,标志着其二十年战略布局进入丰收期。

各阶段分析:

第一阶段 1993-2001:创业,濒临破产到崛起

行业背景:1990年代初,个人电脑图形处理需求激增,Windows 3.1的发布推动了图形界面普及。3D图形技术初露头角,游戏和CAD应用成为驱动需求的关键。但是当时主要依赖CPU处理图形任务,性能有限。例如IBM的CGA显卡仅支持16色、640×200分辨率。专用图形加速芯片开始兴起,但市场分散,技术标准不统一。

创始人背景:英伟达的创始人之一柯蒂斯·普里姆此前在佛蒙特微系统公司(Vermont Microsystems)为IBM设计PGC显卡,后来在太阳微系统公司(Sun Microsystems)领导“秘密图形”团队,设计了GX图形加速器,支持256色、640×480分辨率,是行业早期图形架构专家。他擅长芯片架构设计,奠定了英伟达早期产品的技术基础。另一位创始人克里斯·马拉科夫斯基与普里姆合作密切,负责解决制造和工艺问题。因普里姆和马拉科夫斯基的图形项目被管理层搁置,而离开太阳微系统公司。黄仁勋早期在AMD设计微处理器,后转投LSI Logic参与系统级芯片开发。他技术背景深厚,但更侧重商业与战略,是团队中的“商业大脑”。1993年在丹尼餐厅的多次讨论后,三人决定创立英伟达,目标是为PC市场设计高性能图形芯片。

1. 财务状况:

1995-1996年是英伟达最危险的时期。NV1与行业标准如微软的Direct3D不兼容,导致游戏开发商不愿适配。仅有的支持来自世嘉移植的少数游戏,销量远低于预期。英伟达现金流几近枯竭,世嘉的500万美元投资和100万美元违约金帮助英伟达熬过1996年的危机。

1997年是英伟达的生死逆转年。公司推出RIVA 128,出货超100万颗,市场份额达20%,戴尔、Gateway、NEC等PC厂商采用RIVA 128显卡。公司首次实现季度盈利,1997年Q4利润140万美元。

1998-2001年英伟达奠定了行业统治地位。公司先后发布RIVA TNT、GeForce 256和GeForce 2/3。2000年英伟达获得微软Xbox初代合同预付款2亿美元,总订单价值超10亿美元。GeForce系列在游戏和专业市场的形成垄断地位,市占率超80%。2001年营收10亿美元,成为最快达到10亿年收的半导体公司,仅用9个季度。

2. 产品介绍:

NV1: 采用四边形渲染(Quadrilateral Rendering)而非行业主流的三角形渲染,试图颠覆传统图形管线。它还整合了音效卡和游戏手柄功能,成为一款“多功能芯片”。与行业标准如微软的Direct3D不兼容。

RIVA 128(NV3):首款支持主流3D标准的显卡芯片,采用128位内存总线,性能远超竞争对手。

RIVA TNT(NV4):首款支持双纹理单元的显卡,可同时处理两个像素,性能翻倍。

GeForce 256(NV10):全球首款命名为GPU的显卡,集成硬件光影转换(T&L),解放CPU负担。性能碾压ATI Rage 128和3dfx Voodoo3,成为行业标杆。

GeForce 3首款支持可编程着色器(CUDA前身),为科学计算和高级图形铺路。

GeForce 256的 DDR显存、4管线架构、硬件T&L三大创新,直接拉开与竞品的性能差距,奠定NVIDIA在GPU领域的技术领先地位。而3dfx因固守Glide API和单管线架构逐渐没落,ATI则直到Radeon 9700时代才实现反超。反映了1999年显卡市场的技术分水岭。

3. 竞争格局:

3dfx Interactive(1994–2002)是PC 3D图形加速技术的开创者,其Voodoo系列显卡在1990年代后期统治游戏市场,但最终因战略失误被英伟达和ATI击败。2000年12月申请破产,2002年资产被英伟达以7000万美元收购。至今仍被玩家怀念,二手Voodoo显卡成为收藏品。

Voodoo Graphics(1996):首款支持硬件加速Z缓冲、纹理映射和透视校正的消费级3D显卡,1997年市占率超85%,售价约300美元(高价但供不应求)。

Voodoo 2(1998):全球首款支持SLI(Scan-Line Interleave)技术,可并联两块显卡提升性能,显存带宽达2.2GB/s,支持1024×768分辨率。但价格昂贵,依赖Glide生态,且忽视DirectX趋势。

第二阶段 2002-2014:从游戏到通用计算

行业背景:2002年左右,学术界和科研人员开始探索将GPU用于非图形计算比如流体模拟、蛋白质折叠等),即“基于GPU的通用计算”(GPGPU)。GPU最初设计仅针对图形渲染,缺乏对通用计算的直接支持,开发者需将科学问题“翻译”为图形函数,通过图形编程语言比如OpenGL、英伟达的Cg间接利用GPU的计算能力,门槛极高。当时英伟达已凭借GeForce系列在图形市场领先,若能将GPU的计算能力开放给更广泛的开发者,可能开辟全新市场。

1. 财务状况:

2002-2007:稳步增长,主导图形市场。英伟达主要依赖游戏显卡(GeForce系列)和工作站显卡(Quadro系列)的销售,市场份额领先竞争对手ATI。

2008-2009年:CUDA投入与金融危机冲击。2006年推出G80架构和CUDA平台,研发投入激增,4年耗资4.75亿美元,占研发预算1/3。因全产品线兼容CUDA导致芯片成本上升,且2008年全球金融危机,英伟达2009年净利率从19%降至-1%。同时,2009年收入同比下滑16%。英伟达裁员5%以削减成本。

2010-2014年:复苏与新兴市场探索。2009年后,经济回暖带动GPU需求回升,游戏市场如《使命召唤》等大作推动GeForce销售。2010年收入恢复至35.43亿美元,较2009年增长7%。但由于移动通信业务持续大幅亏损,净利率恢复缓慢。

各业务占比:英伟达不满足于在游戏显卡领域的统治地位,积极的开拓HPC、科学计算市场。并且开发移动通信芯片Tegra进军移动设备市场,后以失败告终。

图形处理器(Graphics Processor):GeForce系列游戏显卡,是英伟达的基本盘,为公司贡献了稳定的营收和现金流。图形处理器营收占比保持在65%以上,2012年专业解决方案业务并入后,占比达75%以上。

媒体和通信处理器(Media & Communications Processor):主板芯片组和视频编解码芯片。主板芯片组(nForce系列)为AMD/Intel CPU提供内存控制和通信接口支持,占营收比一度达25%以上,2008年后nForce因英特尔/AMD自研芯片组而衰落。

图睿处理器(Tegra Processor):Tegra是英伟达2007年推出的面向移动和嵌入式市场的系统级芯片SoC系列,整合了ARM架构CPU核心、自研GPU核心及专用加速模块。Tegra目标智能手机市场,但因芯片发热等问题,受高通/联发科压制,连年亏损。英伟达2015年退出手机芯片竞争。Tegra为后来英伟达进军自动驾驶边缘AI奠定基础。

专业解决方案业务(Professional Solutions)高性能工作站显卡Quadro系列和针对HPC、科学计算的Tesla系列。首款Quadro系列于1999年推出,基于GeForce 256改版,增加专业驱动支持,2010年首次支持CUDA并行计算,广泛应用于工程设计、影视制作、科学模拟等专业场景。Tesla系列是专为高性能计算(HPC)、人工智能(AI)和科学计算设计的加速计算产品线。当时AI市场尚未爆发,Tesla系列的占比较小。2012年后,Quadro系列和Tesla系列并入图形处理器业务。

各业务毛利率情况:除2008-2010年,图形处理器业务毛利率稳定在20%左右。专业解决方案业务针对科研和企业级用户,毛利率相对较高,在40%左右。而图睿处理器几乎一直处于严重亏损状态,2010-2014年拖累了公司整体利润率的回升。

2. 架构演变:

Curie架构:统一着色架构的萌芽。首次引入统一着色器设计雏形,支持顶点着色器和像素着色器的动态分配,提升图形管线效率。但仍为固定功能管线,未开放通用计算能力。

Tesla架构:引入CUDA核心,从图形显卡向通用计算卡的转折点。彻底废弃传统分离式管线,采用128个统一流处理器(CUDA核心),可动态分配计算资源处理顶点、像素或通用计算任务。引入共享内存和线程块调度,允许开发者通过CUDA直接调用GPU计算能力。

Fermi架构:CUDA的成熟化。引入ECC纠错内存,用于科学计算、双精度浮点FP64支持,满足科研需求。并行内核执行,允许GPU同时处理计算和图形任务。

Kepler架构:高性能计算的起点。采用28nm工艺,相同功耗下性能比Fermi提升约35%。Fermi含32个CUDA核心,而Kepler一共有2880个CUDA核心。

Maxwell架构:节能计算引领者。Maxwell架构同样采用28nm制程,在功耗效率和计算密度上取得了重大突破。与Kepler架构相比,一个流处理器(SM)拥有的CUDA核心数从64个提升到128个。GM200具有3072个CUDA核心和336GB/s带宽,计算密度是Kepler的两倍。在保证强大计算能力的同时,降低了能耗,为更多对功耗有严格要求的应用场景提供了可能。

3. 收并购

3dfx被英伟达收购后,英伟达确立了在游戏显卡领导地位。后续英伟达不断研发新技术,收购图像渲染领域相关公司,为后来在Turing架构中集成光线追踪技术,推出Omniverse物理模拟平台奠定基础。

英伟达希望收购相关公司进军移动通信领域,但最终因 Tegra 芯片发热问题与高通、联发科竞争失败。嵌入式芯片技术的积累为英伟达推出自动驾驶芯片留下技术遗产。

第三阶段 2015-至今:比特币捞金、ALL in AI

行业背景: 2012年AlexNet凭借GTX 580GPU夺冠ImageNet后,业界意识到GPU是AI训练的黄金硬件。面对游戏市场增长放缓、CPU厂商的竞争压力,以及云计算巨头对AI算力的爆发式需求,英伟达凭借成熟的CUDA生态和前瞻性架构迭代,将Tesla GPU打造成AI基础设施。这一转型避开了显卡市场的天花板,最终从游戏芯片厂商蜕变为万亿级AI计算霸主,数据中心收入占比达90%,市值增长超百倍。

1. 财务状况:

2016-2018:比特币挖矿狂飙,AI萌芽。Pascal架构适合以太坊挖矿,2017年比特币/以太坊价格暴涨,矿工抢购GTX 1060/1070等显卡,致显卡价格溢价50%-200%,英伟达2018年Q1财报显示,挖矿相关收入贡献10%。同时,2016年AlphaGo击败李世石,引发全球AI投资热潮,云计算厂商AWS等大规模采购Tesla P100,数据中心收入从2016年4.3亿美元增至2018年29亿美元,年复合增长率超100%。

2019:加密货币崩盘,AI投资短期调整。2018年比特币价格从2万美元暴跌至3000美元,矿工抛售二手显卡,导致市场库存积压。比特大陆推出Antminer S9等ASIC矿机,抢占英伟达显卡市场。同时,2018-2019年全球AI融资热度暂缓,云计算厂商消化此前采购的Tesla V100库存,新增订单减少。

2020-2022年:疫情加速数字化,Ampere架构引爆AI与游戏市场。2020年疫情推动游戏和数据中心需求。Ampere架构于2020年推出:GeForce RTX 30系列支持DLSS 2.0和光追,形成玩家升级潮;A100成为成为ChatGPT大模型训练的算力基础。

2023年至今:生成式AI革命引爆算力需求。2023年ChatGPT 3.0现象级爆发,OpenAI、微软等企业疯狂采购A100/H100 GPU训练大模型。云计算三巨头AWS/Azure/谷歌云将50%+资本开支投向AI算力。2024年英伟达营收达1305亿美金,是2022年营收的近5倍,数据中心业务占比达90%。

英伟达近十年一直保持高强度研发,不断加码AI领域,研发费用率保持在20%以上。2024年研发费用达到129亿美金。2023年后营收爆发,研发费用率逐渐下降至10%。

2. 架构演变:

Pascal架构:能效比与加密货币市场。首次采用台积电(TSMC)16纳米制程工艺,相比前代Maxwell的28nm工艺,晶体管密度和能效显著提升,功耗降低约50%。这一架构引入FP16半精度计算,适用于深度学习。首次集成 NVIDIA NVLink 高速双向互联技术,极大地增强了多 GPU 协作能力。同时,它首次引入HBM2高带宽内存,相比 Maxwell 架构,显存带宽性能提升了 3倍,有效缓解了数据传输瓶颈。Pascal架构的显卡GTX 10系列在2017-2018年的加密货币挖矿热潮中被大量使用,成为当时矿工的主流选择之一。

Volta架构:首次引入Tensor Core,AI计算的里程碑。其采用台积电12nm FFN工艺(FinFET Non-Plus),首次引入Tensor Core(张量核心),专为加速矩阵运算设计。每个Tensor Core 支持FP16/FP32/BF16/ INT8精度的矩阵乘法累加(MMA)运算,单颗GV100的Tensor Core可提供125 TFLOPS的FP16算力,较Pascal架构的CUDA核心提升6倍。

Turing架构:引入光线追踪核心(RT Core)和深度学习超级采样(DLSS)。Turing架构采用台积电12nm FFN工艺,新增了Ray Tracing核心(RT Core),专用于计算光线与场景的交互(如阴影、反射、全局光照),相比传统光栅化性能提升6-10倍。DLSS技术通过Tensor Core加速AI计算,将低分辨率图像(如1080p)智能放大到高分辨率(如4K)。英伟达在Turing架构推出后,将新一代消费级显卡的命名从“GTX”改为“RTX”,这一变化标志着显卡技术从传统光栅化渲染向实时光线追踪和AI驱动的重大转型。

Ampere架构:全面性能跃升。采用台积电7nm工艺,集成524亿晶体管,是Volta架构的2.6倍。每个SM包含128个FP32 CUDA核心是Turing的两倍。RT Core升级,光线追踪性能比Turing提升2倍,支持动态模糊光线追踪。Tensor Core增强,支持TF32计算,AI训练性能比Turing提升2.5倍。A100成为成为ChatGPT等大模型训练的算力基础。

Hopper架构:引入Transformer引擎和Grace-Hopper异构集成。H100采用台积电4N制程,拥有800亿个晶体管,集成了SXM5和HBM3,通过NVLink 4.0技术连接,带宽高达3.3TB/S。它采用全新的Transformer引擎,支持FP8计算,为大规模数据处理和Al训练提供了强大的支持。Grace CPU与Hopper GPU通过NVLink-C2C实现超高速互联,实现内存一致性(CPU可直接访问GPU显存)。Hopper是英伟达首个专为万亿参数AI设计的架构,其FP8精度和Grace-Hopper异构集成重新定义了超算形态。

Ada Lovelace架构:游戏和图形显卡的新突破。Ada Lovelace架构是NVIDIA公司推出的第三代RTX架构,应用于GeForce RTX 40系列品卡。该架构在光线追踪性能上有了极大提升,同时支持DLSS 3技术,通过Al生成额外帧,进一步提升游戏帧率。

Blackwell架构:第二代Transformer引擎和Chiplet。B200采用台积电4NP工艺,集成2080亿晶体管,两颗B100 Die通过10 TB/s片间互形成统一GPU。GB200将两颗B200 Die 和Grace CPU 通过NVLink-C2C实现内存一致性。新增第二代Transformer引擎,动态切换精度,适配稀疏计算,训练万亿参数模型效率提升30倍。Blackwell被黄仁勋称为“计算机史上最成功的产品”。

3. 收并购

英伟达通过收并购实现了从硬件层(Mellanox)→调度层(Run:ai)→应用层(医疗/自动驾驶)→云平台(Lepton AI)的全栈布局,目标是将数据中心从算力提供者升级为AI基础设施的标准制定者。英伟达以GPU为底座,通过收购填补关键短板,最终掌控AI开发全生命周期。

总结

英伟达的发展历程深刻体现了技术前瞻与长期主义的完美结合。从早期放弃主流图形标准、冒险押注可编程GPU架构,到2006年投入巨资开发短期内看不到商业回报的CUDA平台,再到2010年代果断放弃移动芯片业务、全力转向AI计算,英伟达始终坚持"做难而正确的事"。这些战略决策在初期往往面临巨大风险和市场质疑,但通过持续的技术迭代(每代架构突破)、生态构建(CUDA开发者社区)和战略定力(专注GPU通用化),最终将短期技术优势转化为长期行业标准,成就了其在AI时代的统治地位。这种敢于押注技术拐点、甘愿承受转型阵痛的长期主义,正是英伟达从图形芯片厂商蜕变为计算巨头的核心密码。

参考资料:

Kim, T. (2024). 英伟达之道. 中信出版社.

Mackler. (n.d.). 英伟达与计算机形态的历史轮回. https://zhuanlan.zhihu.com/p/704764104

存储随笔. (n.d.). 漫谈英伟达GPU架构进化史:从Celsius到Blackwell. https://mp.weixin.qq.com/s/S0u9pUwwRYWwkbwCV-g4oQ

Recent database updates. TechPowerUp. (2025b, June 30). https://www.techpowerup.com/gpu-specs/

相关推荐