加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    • 云端AI大爆发,国产芯片“水涨船高”
    • 大模型训练国产替代,难在哪里?
    • 国产芯片是否有追赶的可能性?
    • 写在最后
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

云端AI好生意,但留给国产芯片的时间不多了

2023/05/05
7052
阅读需 10 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

寒武纪近日发布了2023年第一季度报告,显示营收0.75亿元,较上年同期增长19.52%,较上年同期亏损收窄11.26%。甚至在五一前夕,寒武纪总市值达到1034.48亿元,这也是时隔两年半多,寒武纪再破千亿大关。

云端AI大爆发,国产芯片“水涨船高”

从寒武纪2022年年报来看,营业收入较上年同期增加798.93万元,同比增长 1.11%。其中,云端收入大幅增长,云端产品线收入2.19亿元,较上年同期增长173.52%。寒武纪公告称,随着云端产品线思元290、思元370系列产品在多家头部企业完成产品导入,带动了云端产品线业务收入大幅增长。

随着以ChatGPT为代表的AIGC相关应用涌现,AI相关概念股也持续上涨。寒武纪作为国内AI算力芯片龙头,也迎来了上市以来最大的风口。

从2月中下旬开始,ChatGPT逐渐引爆了训练需求。某企业人士透露,其公司去年年末主要都是针对小模型训练做的预算,约不到3000万。但经过3月份对大模型应用需求的调研后,已经增加了9000万预算。

市场需求之旺盛可见一斑。那么,寒武纪为此做好准备了吗?

寒武纪云端产品线的产品形态主要包括云端智能芯片和加速卡、训练整机及智能计算集群,而这基本是英伟达的领地。

图:寒武纪主要产品线(来源:公司公告)

据了解,思元370芯片及加速卡目前与多家头部互联网企业在视觉、语音、图文识别、自然语言处理等场景下完成了适配工作后,已经进入批量销售环节,实现了收入突破。

对于大模型领域,寒武纪公告称:与某互联网企业进行了大模型训练的初步合作,目前仍处于技术探索和测试阶段。

大模型训练国产替代,难在哪里?

3月中旬,有市场消息称,百度“文心一言”将调用超大规模算力,并尝试使用寒武纪思元590替代部分英伟达A100。

这一消息后来被寒武纪所辟谣。然而,根据所传出的疑似百度内部的消息是:“除了英伟达A100和寒武纪思元590,其他性能差一点的替代品也考虑。”

据了解,思元590是寒武纪最新一代云端智能训练芯片,该产品目前尚未正式发布。寒武纪董事长陈天石在一次大会中介绍,思元590采用MLUarch05全新架构,实测训练性能较在售旗舰产品有大幅提升,能够提供更大的内存容量和更高的内存带宽,其I/O和片间互联接口也较上代实现大幅升级。

虽然还未正式上市,但思元590已然被寄予厚望,甚至被认为“将是最早实现商业应用的接近英伟达A100性能的国产Al训练芯片”。

寒武纪和百度双方均未对合作细节做出正式回应,或许存有这样的可能性:思元590在“文心一言”中可能小规模部署进行测试,比如用于推理应用中的小部分场景,进入大模型训练中的可能性或许并不大。

其实,在性能达到要求的前提下,国产芯片所能实现的成本优势,以及从防止“断供”、“卡脖子”的战略意义层面来看,都有其发展空间和必要性所在。在与一位业内人士的对话中,问其:如果英伟达A100的库存用完了,国内企业宁愿买“阉割版”的芯片,也不会买国产芯片吗?对方答:“如果国产算力芯片整体性价比能够达到英伟达的60%-70%,就有购买的意愿,可惜目前还达不到。”

对于大模型训练所需的算力芯片,业内认为“只有英伟达的A100和A800能够真正跑起来,国产GPU只能做小规模和中规模的训练和推理。”

那么,国产芯片的差距主要在哪?

一位业内人士认为,在性能提升的基础上,国产芯片的稳定性还需要时间去打磨。以大模型训练为例,通常进行一次训练需要几天甚至十几天的时间,稳定性必须足够好。因为训练过程中,需要保存模型参数,以便进行推理及中断后再训练使用。如果稳定性不好,出现一两个节点的宕机,或是个别计算节点失效,那么就要推翻重来,导致训练时间延长。

而稳定性取决于配套的软件和工程能力。由于运行过程中,需要解决很多BUG,还需要软硬件结合、冗余的机制等等,而这些都需要付出相应的时间和成本,也免不了商业应用中前期的投入和磨合。

此外,英伟达在云端AI训练生态领域已布局多年,用户迁移到国产芯片,需要付出一定的代码工作量和移植成本,这也是国内芯片企业的最大瓶颈。

面对云端这个巨大的市场,英伟达方面也丝毫没有松懈。即使面临美国商务部以安全问题为由,禁止其向中国客户出售A100和更先进的H100的情况下。针对禁令,英伟达面向中国市场先后推出了“合规版”的A800和H800,在关键参数方面(如:数据传输速率、所支持的内存带宽)进行了一定下调,以符合出口管制要求。

据传,在英伟达A100停售前,国内多家企业都进行了囤货。且几家头部互联网企业都向英伟达下了1.5万-1.6万的A800和H800订单,每家金额在十几亿美元左右,大约能保证在2024年有足够的产能。

国产芯片是否有追赶的可能性?

一份来自阿伯丁大学、MIT等机构的研究,将算力演进划分为三个阶段:前深度学习时代、深度学习时代、大规模时代。该研究显示,在过去12年间(2010-2022年),ML训练算力增长了100亿倍。2010 年之前,训练所需的算力增长符合摩尔定律,大约每20个月翻一番。自2010年代初深度学习问世以来,训练所需的算力快速增长,大约每6个月翻一番。而到了2015年末,随着大规模ML模型的出现,训练算力的需求提高了10到100倍,一种新的趋势出现了。

根据OpenAI 近日的分析显示,自 2012 年以来,AI训练任务中使用的算力,目前每3.5个月翻一倍。

大模型的“大”体现在海量参数训练,而这意味着需要极致算力。由于模型越大、参数越多,对算力的需求也更大。这无疑加剧了算力芯片的迭代速度。通常来讲,算力芯片折旧时间最长不超过5年,一般为2-3年,在强力需求的推进下,这一市场竞争会更为激烈。

对于企业用户来讲,追求大算力、高性能的芯片无可厚非,迭代跟不上需求的产品只能从业务中剥离。特别是对于AI云端训练这种高门槛的应用,注定难以百花齐放,而会成为寡头垄断的领域。对于国内芯片企业来说,既需要解决生态问题,又需要实现良好的性价比和稳定性,才能让企业有替代意愿。

那么,国产算力芯片还有追赶的可能性吗?

一位业内人士认为,差距在一点点缩小,但是缩小的难度会越来越大。因为硬件迭代投入是巨大的,量产风险也很高,如果没有雄厚的资金持续投入,实现追赶首先有一定的难度。其次,如果英伟达保持现有的产品发布节奏,对于国内厂商来讲,差距可能会慢慢增大,特别是在相关禁令约束的情况下。

写在最后

一颗芯片背后,不仅仅是一颗芯片,是长达数十年的平台耕耘,包括软硬件平台、应用框架等等。

顶着“国产AI芯片第一股”头衔上市的寒武纪,面向的是AI未来的星辰大海,以及国产替代的广阔前景。但是,在云端这个极需自己“卷”自己的市场中,寒武纪正处于一场看似曙光在即、但仍遥遥无期的长跑中。

不仅是寒武纪,对于所有AI芯片厂商来说都是如此,只有扩大规模效应、提升营收高速增长,同时,提升项目落地交付速度、降低耗费成本,才有望打破这种“增收仍亏损”的死循环,实现真正的追赶甚至超越。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
ATXMEGA128D4-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$5.3 查看
FT232RL-REEL 1 FTDI Chip USB Bus Controller, CMOS, PDSO28, 10.20 X 5.30 MM, GREEN, SSOP-28

ECAD模型

下载ECAD模型
$4.79 查看
ATXMEGA128A1U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 100TQFP

ECAD模型

下载ECAD模型
$7 查看
寒武纪

寒武纪

寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。寒武纪产品广泛应用于服务器厂商和产业公司,面向互联网、金融、交通、能源、电力和制造等领域的复杂 AI 应用场景提供充裕算力,推动人工智能赋能产业升级。

寒武纪提供云边端一体、软硬件协同、训练推理融合、具备统一生态的系列化智能芯片产品和平台化基础系统软件。寒武纪产品广泛应用于服务器厂商和产业公司,面向互联网、金融、交通、能源、电力和制造等领域的复杂 AI 应用场景提供充裕算力,推动人工智能赋能产业升级。收起

查看更多

相关推荐

电子产业图谱

与非网资深行业分析师。主要关注人工智能、智能消费电子等领域。电子科技领域专业媒体十余载,善于纵深洞悉行业趋势。欢迎交流~