01
企业动态(5月6日)
索尼展示专用图像稳定芯片CXD5254GG,释放垂直整合强信号
2026年5月,晶圆代工企业世界先进(Vanguard International Semiconductor)董事长方略在股东会上表示,公司正审慎评估建设第二座12英寸晶圆厂的可行性,但尚未做出最终投资决策。世界先进目前在新加坡运营一座12英寸厂(VSMC),主要承接台积电转单,生产28nm及以上成熟制程芯片,客户涵盖汽车电子、电源管理及显示驱动IC领域。
方略指出,当前全球8英寸晶圆需求持续疲软,而12英寸成熟制程竞争加剧,中芯国际、华虹等大陆厂商扩产积极,叠加地缘政治不确定性,投资回报周期存在显著风险。世界先进2025年营收同比下滑约12%,毛利率承压至25%以下,现金流状况使大规模资本支出更为谨慎。公司强调,若推进新厂建设,将优先考虑与战略客户签订长期产能协议(LTA),并寻求政府补贴与合资模式分担风险,预计评估期将持续至2027年。
点评:当前12英寸成熟节点(28nm及以上)正陷入"产能过剩—价格战—利润萎缩"的恶性循环,中芯国际、华虹的激进扩产已使该领域成为红海市场。世界先进若此时跟进建厂,不仅面临客户被低价抢单的风险,更可能因折旧摊销拖累本就脆弱的盈利能力。
世界先进长期依赖台积电技术授权与订单转移,缺乏独立的技术迭代能力。在先进制程(7nm以下)被台积电、三星垄断的背景下,成熟制程又遭大陆厂商夹击,其生存空间正被双向挤压。方略提及的LTA与政府补贴,本质是将风险转嫁给客户与纳税人,但这无法解决核心竞争力缺失的根本问题。
02
企业动态(5月7日)
三星电子推出8nm eMRAM:嵌入式存储迈入新节点
三星电子宣布成功开发业界首款基于8nm工艺的嵌入式磁阻随机存取存储器(eMRAM),并已进入客户送样阶段。该产品采用三星第二代eMRAM技术,在8nm逻辑工艺平台上实现集成,存储密度较上一代14nm节点提升约2.3倍,写入速度突破20ns,耐久性超过10¹⁵次擦写循环,数据保持能力在85°C高温下可达10年以上。
8nm eMRAM的推出标志着嵌入式非易失性存储器首次迈入先进FinFET工艺节点。相比传统eFlash,eMRAM无需额外的高压工艺模块,可与逻辑电路同步微缩,显著降低芯片面积与制造成本。三星表示,该产品主要面向物联网终端、汽车电子及AI边缘推理芯片,满足低功耗、高可靠性的代码存储与数据记录需求。目前,三星正与多家无晶圆厂设计公司合作,预计2027年上半年实现量产。
点评:三星8nm eMRAM的发布,实质是嵌入式存储技术路线的关键转折点。eFlash受限于浮栅结构,在28nm以下节点微缩困难,而eMRAM凭借磁性隧道结的物理特性,天然适配先进制程,解决了"存储拖慢逻辑"的结构性矛盾。这一突破对汽车电子与边缘AI尤为关键:前者需要高耐久性存储支撑OTA升级与事件记录,后者则依赖非易失性存储实现毫秒级唤醒与低待机功耗。
但eMRAM的制造成本仍高于成熟节点的eFlash,且良率爬坡需要时间;更关键的是,台积电、英特尔也在加速布局eMRAM/ePCM技术,三星的先发优势窗口期可能不足两年。此外,设计生态的成熟度——包括EDA工具支持与IP核可用性——将决定该技术能否从"样品亮眼"走向"规模商用"。
03
市场动态(5月8日)
下一代大模型芯片如何应对Token黑洞
随着大模型参数规模突破万亿级别,推理阶段的Token生成成本正成为行业"黑洞"。当前主流GPU在生成单个Token时需全量加载模型权重,导致内存带宽成为核心瓶颈——以GPT-4级别模型为例,单次推理的显存占用可达数百GB,而HBM3e带宽仍无法满足低延迟需求 。2026年,芯片厂商正通过三条路径破解这一困局。
存算一体(CIM)架构成为突破方向。三星、台积电已量产基于SRAM的存内计算芯片,将乘法累加单元嵌入存储阵列,理论能效较传统架构提升10-100倍,可直接在存储端完成部分注意力计算,减少数据搬运 。稀疏计算优化亦在加速落地,英伟达Rubin架构支持动态结构化稀疏性,可在保持精度的前提下跳过零值计算,预计提升30%有效吞吐量 。此外,专用推理芯片如Groq的LPU采用时序指令集计算(TSP)架构,通过确定性执行消除内存访问不确定性,在Llama 3推理中实现每秒800 Token的吞吐量,较GPU方案提升10倍 。
然而,这些方案仍面临生态壁垒。CIM芯片需重构软件栈,稀疏计算对模型训练提出新约束,专用芯片则受限于框架适配。业界共识是:未来两年将是架构分化与融合并存的关键窗口期 。
点评:"Token黑洞"本质是内存墙与算力墙的双重挤压,反映了大模型从"训练密集型"向"推理密集型"转型的结构性矛盾。当前解决方案呈现明显的场景割裂:存算一体适合边缘低功耗场景,但精度与灵活性不足;专用推理芯片在特定模型上表现惊艳,却难以适配快速迭代的模型架构 。这种碎片化恰恰说明,单一技术路径无法通吃所有场景。
更深层的挑战在于软硬件协同。芯片架构创新若缺乏框架层支持(如PyTorch对稀疏算子的原生优化),将沦为"纸上性能"。英伟达的核心护城河并非仅在于硬件,而是CUDA生态对新架构的快速适配能力 。因此,AMD、Intel等追赶者需在ROCm、oneAPI等软件栈上加大投入,否则硬件优势难以转化为用户体验。
04
企业动态(5月8日)
AMD发布Instinct MI430X GPU:FP64性能突破200 TFLOPS
2026年5月,AMD在美国得克萨斯州奥斯汀举办的高性能计算用户论坛(HPCUF)上,提前发布了全新Instinct MI430X GPU。该产品基于下一代CDNA架构(预计为CDNA 5),原生双精度浮点(FP64)算力预计突破200 TFLOPs,达到下一代英伟达Rubin架构的6倍以上,有望成为史上双精度浮点性能最强的GPU。
MI430X搭载432GB HBM4高带宽内存,带宽高达19.6TB/s,相较上一代MI350系列实现翻倍以上提升,有效解决了大规模仿真与AI训练中的内存瓶颈问题 。该芯片专为高性能计算场景设计,支持FP64、FP8、FP4全精度计算,适用于气候模拟、材料科学、核工程、流体力学等前沿科研领域 。
目前,MI430X已确认部署于美国橡树岭国家实验室的Discovery超算系统,以及法国Alice Recoque超算项目。后者规划FP64算力逾1 ExaFLOP,建成后将成为欧洲算力最强的高性能计算系统之一 。完整技术规格将于2026年7月22日至23日的AMD Advancing AI主题活动中正式发布 。
点评:AMD此次发布MI430X,标志着其在高性能计算(HPC)领域对英伟达发起精准狙击。然而,需理性看待"性能吊打"的表述。MI430X与Rubin并非同一赛道产品——前者专注HPC,后者主攻AI训练推理,直接对比存在场景错位 。在AI低精度任务中,AMD仍需靠MI455X等型号与英伟达正面交锋。此外,软件生态仍是AMD的短板,ROCm相比CUDA的开发者粘性差距尚未根本扭转。
MI430X的发布打破了英伟达在超算领域的垄断格局,为科研机构提供了"去英伟达化"的选项。随着Discovery、Alice Recoque等标杆项目落地,AMD在国家级算力基础设施中的话语权将持续提升,但能否将硬件优势转化为市场份额,仍取决于生态建设与客户迁移成本。
05
企业动态(5月6日)
鹏越科技280亿武汉建12英寸晶圆厂,主攻成熟制程
2026年5月,鹏越科技宣布其12英寸半导体晶圆制造项目在湖北武汉正式开工奠基。该项目总投资约280亿元人民币,规划建设月产能5万片的12英寸晶圆生产线,主攻28nm至55nm成熟制程,产品覆盖汽车电子、工业控制、物联网及显示驱动IC等领域。项目分两期实施,首期预计2027年底投产,2028年实现满产运行。
鹏越科技的开工,是地方政府"押注"半导体制造的又一典型案例。280亿投资、5万片月产能的规划,在成熟制程领域已属中等规模,但其面临的产业环境却极为严峻。当前28nm-55nm节点正经历全球性的产能过剩,中芯国际、华虹、联电等厂商的产能利用率已降至70%左右,价格战持续侵蚀利润空间。鹏越科技作为"后发者",既无技术代差优势,又缺乏客户生态积累,2028年满产时或将直面最残酷的竞争窗口。
06
企业动态(5月8日)
华海清科离子注入机交付国内先进存储龙头企业
近日,国产半导体设备厂商华海清科宣布,其自主研发的离子注入机成功交付国内先进存储龙头企业,标志着国产高端前道设备在存储制造领域实现关键突破。该设备采用中束流离子注入技术,可满足3D NAND闪存与DRAM制造中的源漏极掺杂、沟道调节等核心工艺需求,注入能量范围覆盖2keV至1MeV,剂量均匀性控制在±0.5%以内,达到国际主流设备技术水平。
离子注入机是芯片制造中价值量最高的核心设备之一,长期被应用材料、亚舍立等美系厂商垄断,国产化率不足5%。华海清科此次交付,填补了国产设备在存储前道制程的空白,客户验证通过后有望进入批量采购阶段。公司表示,后续将推进高束流与高能离子注入机的研发,构建覆盖逻辑与存储全场景的注入设备矩阵。该进展亦获资本市场积极回应,华海清科股价当日上涨逾6%。
07
国内(5月9日)
我国首台双核原子量子"超级计算机"研制成功:芯片架构成核心突破
2026年5月,中国科学技术大学潘建伟院士团队联合中科院精密测量院宣布,成功研制出我国首台双核原子量子"超级计算机"。该系统的核心创新在于量子处理芯片架构——采用中性铷原子阵列方案,集成两个独立的量子处理核心,每个核心包含超1000个物理量子比特,通过光镊技术在芯片级尺度上实现原子间的高保真度纠缠操控,双核间量子态传输保真度达99.2%。整机在量子纠错编码下,逻辑量子比特芯片数量突破100个,可稳定执行超过1000层的量子电路深度。
该双核量子芯片采用模块化分割设计,将量子比特阵列分割为两个独立模块,通过光子介导的量子隐形传态实现核间通信,有效降低了串扰噪声对计算精度的影响。团队在随机线路采样任务中验证了芯片系统性能,结果显示其计算速度较经典超级计算机模拟快约10¹⁵倍。相关成果已发表于《自然·物理》期刊,标志着我国在可扩展量子计算芯片架构上取得里程碑式突破。