“龙芯三号”(英文名:LS3)是中国科学院计算技术研究所自主研发的龙芯系列CPU芯片的第三代产品,是中国重点支持的科研项目。
2001年3月,中科院计算所
龙芯研发项目正式启动。 在龙芯1号、2号成功后,2005年,时任龙芯技术负责人
胡伟武带着部分龙芯课题组的骨干在香山别墅基本明确了龙芯3号系列CPU的可伸缩互连结构以及基于目录的
缓存一致性协议。龙芯3A1000于2008年底交付流片。2009年5月20日龙芯3A1000晶圆样片生产下线,在验证中发现问题,后阿来进行了第一次改版并于2010年5月中旬流片,10月底第一次改版流片成功,然后开始了小批量生产。
龙芯3A1000在2012年进行了第二次改版。3A1000的第二次改版于2012年2月下旬流片,2012年8月中旬流片成功。
龙芯3B的研发工作在2008年底龙芯3A交付流片后开始全面展开。首款龙芯3B1000继续基于65nm工艺,目标主频800MHz-1GHz,八核结构,每个核包含两个256位
向量部件,峰值浮点性能达到128GFLOPS。龙芯3B1000于2010年6月20日左右流片,2010年11月底回来第一批芯片。
龙芯3B1000首款流片不成功促使工程师马上进行改版,龙芯3B1000的第一次改版2011年2月初流片,7月初回来,调试比较顺利。但在压力测试时又出现死机现象,经过几个月的攻关发现又是死锁问题。为此龙芯3B1000进行了第二次改版,于2011年12月初流片,2012年4月底回来。从此达到稳定状态。
龙芯团队先后研制了龙芯3A1000、3B1000、3B1500、3A2000/3B2000、3A3000/3B3000五款龙芯3号系列芯片,大的流片版本12个,小的流片版本6个。
2022年12月,32核的龙芯3D5000产品已经完成研发,2023年4月8日上午,新款高性能服务器处理器——龙芯3D5000发布。2024年7月
龙芯 3C6000 已经完成流片。
2023年1月6日,龙芯3C5000获得“2022最佳自主架构服务器芯片奖”。
历史沿革
背景
CPU(
中央处理器)芯片,计算机系统最核心的部件,相当于人的大脑,负责计算机系统几乎所有的计算工作。全世界CPU芯片的生产被
英特尔等少数几家
跨国公司垄断,无“芯”之痛,长期困扰着中国
计算机产业。2001年3月,中科院
中国科学院计算技术研究所龙芯研发项目正式启动。
2002年6月,龙芯1号CPU研制成功。同年12月,“
龙芯产业化联盟”成立。
2003年10月,龙芯2号流片成功。
2004年9月,多次改进后的龙芯2C流片成功,性能相当于高端奔腾II芯片。
2005年5月,龙芯课题组派出骨干成员赴
江苏省参与组建龙芯产业化基地。
2006年3月,龙芯2E增强型处理器流片成功,性能与中端奔腾IV芯片相当。
2006年10月,中法两国签署中科院与
意法半导体公司
合作研发龙芯多核处理器的框架协议,中国国家主席胡锦涛与时任
法国总统雅克·希拉克出席协议签字仪式。
筹备
2005年深秋,时任
龙芯技术负责人
胡伟武带着部分龙芯课题组的骨干在香山别墅讨论龙芯3号的结构方案。香山别墅三天讨论的成果是基本明确了龙芯3号系列CPU的可伸缩互连结构以及基于目录的
缓存一致性协议。龙芯3号的互连结构中,每个结点四个处理器核通过交叉开关进行全相连,结点间(不论片上还是片间)通过可伸缩的mesh网络相连;多核的Cache一致性采用基于目录的一致性协议,目录设置在片上共享的最后一级Cache(LLC)上。上述结构有别于当时主流的环状多核互连以及基于侦听的Cache一致性协议。讨论还明确了
龙芯3号片内集成内存控制器以及HyperTransport(简称HT)接口。HT是
AMD主推的系统总线接口。
龙芯3A
研制
在龙芯3号结构基本确定后就展开了龙芯3号CPU的研发。由于当时“十五”863课题结束了,“十一五”“核高基”(即“核心电子器件、高端通用芯片和基础软件产品”重大专项)课题还未启动。为此,
中国科学院对龙芯3号的研制给了500万元的前期经费支持(执行期限2007年1月到2007年12月)。科技部高新司
冯记春司长得知龙芯3号的第一款芯片龙芯3A1000已经基本完成设计,但缺少流片费时,在
国家高技术研究发展计划内紧急安排了2000万的经费支持龙芯3号的研制(执行期限2008年1月到2010年12月)。在
龙芯3号研制过程中,作为中法两国在IT领域战略合作的一部分,科技部安排龙芯CPU在意法半导体流片。2006年10月26日,
中国科学院与
意法半导体在人民大会堂签署了关于龙芯CPU战略合作的文件。龙芯CPU在意法半导体的流片一直延续了下来,龙芯3A1000即使用意法半导体的65nm工艺流片。龙芯3A1000于2008年底交付流片。
生产
第一次生产
2009年5月20日,龙芯3A1000晶圆样片生产下线,9月28日样片回来,成功启动操作系统,主频800MHz-1GHz。这是
龙芯CPU第一次启动多核操作系统。在龙芯3A1000出来以后,用80颗龙芯3A1000搭建了KD60
超级计算机。在KD60运行LINPACK过程中,总是出现偶发性错误。这个问题以及其它的小问题导致龙芯3A1000进行了第一次改版并于2010年5月中旬流片,10月底第一次改版流片成功,然后开始了小批量生产。
改版
龙芯3A1000在2012年进行了第二次改版。第二次改版主要是双路直连时在特定访问序列下导致两片间的互连网络死锁。大致机理是HT协议的虚通道只有三个,分别是POST、NONPOST、RESPONSE,而
龙芯的片上网络协议AXI有五个实通道,分别是读请求、写请求、写数据、读响应、写响应。于是在通过HT传输
缓存一致性协议时,就将写请求与写数据合并一个通道,读响应与写响应合并一个通道传输。Cache一致性协议要求写响应不能被堵,而读响应通道发出的二级Cache给一级Cache的一致性请求有时会因为一级Cache处理不过来而被堵住,这时就会顺带堵死写响应通道,导致死锁。当时解决的办法是在HT原有三个虚通道的基础上增加了第四个虚通道并且允许写命令与写数据之间插入写响应包。3A1000的第二次改版还解决了HT互连时一个异步握手的问题。3A1000的第二次改版于2012年2月下旬流片,2012年8月中旬流片成功。至此
龙芯3A1000就很稳定了,截至2016年还是龙芯销售的一款重要芯片,尤其是在工控领域。
龙芯3B
龙芯3B的研发工作在2008年底龙芯3A交付流片后开始全面展开。首款龙芯3B1000继续基于65nm工艺,目标主频800MHz-1GHz,八核结构,每个核包含两个256位
向量部件,峰值浮点性能达到128GFLOPS,这在当时处于世界领先行列。龙芯3B1000于2010年6月20日左右流片,2010年11月底回来第一批芯片。但第一批芯片回来测试并不顺利,连操作系统都启动不了。很快就找到了原因:由于芯片可测性设计部分的逻辑设计错误,在功能模式下误把内存引脚置为测试状态,导致芯片访问不了内存,通过FIB(用离子束改变硅片上的连线)修复后功能正常。
龙芯3B1000首款流片不成功促使工程师马上进行改版,龙芯3B1000的第一次改版2011年2月初流片,7月初回来,调试比较顺利。但在压力测试时又出现死机现象,经过几个月的攻关发现又是死锁问题。为此龙芯3B1000进行了第二次改版,于2011年12月初流片,2012年4月底回来。从此达到稳定状态。
在掌握65nm工艺的基础上,龙芯团队于2009年11月开始评估32/28nm工艺,并准备把它作为龙芯CPU的下一个工艺结点。2010年12月选定
意法半导体与
三星电子合作的32nm工艺并开始八核3B1500的设计。3B1500基于3B1000的设计,主要通过工艺升级提高性能,同时做了局部的性能优化,尤其是在处理器核中增加了私有二级
缓存。2012年1月中旬完成3B1500的设计并交付流片。2012年8月底拿到样片,初步测试正常,频率从3B1000的900MHz提高到1.25GHz(最高可达1.5GHz)。在经过测试后对该芯片进行了万片规模的小批量生产。在应用验证过程中,出现了在很大的应用压力下个别芯片不稳定现象。刚开始
龙芯团队觉得是个体问题,后来出现的次数多了,开始于2013年1月31日组织人员攻关定位问题,查找机理。直到2013年4月12日,才发现是从3B1000到3B1500改版过程中引起的,后来通过软件调整规避此问题。经过批量测试,原不稳定现象消失。
为了从根本上消除该问题和其它一些小问题,龙芯对3B1500进行改版。改版时根据生产厂家的建议,工艺从32nm迁移到28nm,于2013年4月底流片,10月底收到样片,功能正常,但成品率极低,与厂家确认后明确是厂家生产问题。厂家建议3B1500恢复到32nm工艺流片,于是又再次改版,于2015年1月底流片,2015年6月下旬收到样片,测试后功能正常,而且成品率正常,后量产。
龙芯团队先后研制了龙芯3A1000、3B1000、3B1500、3A2000/3B2000、3A3000/3B3000五款龙芯3号系列芯片,大的流片版本12个,小的流片版本6个。
龙芯3C
2024年7月30日,在2024 全球数字经济大会
拉萨市高层论坛上,
龙芯中科董事长
胡伟武介绍,该公司在研的服务器 CPU 龙芯 3C6000 近日已经完成流片。实测结果表明,相比上一代服务器 CPU
龙芯 3C5000,其通用处理性能成倍提升,已达到
英特尔推出的中高端产品
至强(Xeon)Silver 4314 处理器水平。
龙芯 3C6000 服务器芯片采用单硅片 16 核 32 线程,通用处理性能成倍提升,内存采用 DDR4-3200×4,支持LS3D6000 双硅片 32 核 64 线程、LS3E6000 四硅片 64 核128 线程,支持 GPGPU、各类加速器扩展。
此外,龙芯 3C6000 通过龙链技术(Loongson Coherenent Link)首次实现片间互联,龙链技术对标nVLink、CXL,可实现 Chiplet(小芯片、芯粒)的连接。
龙芯 3C6000 服务器 CPU 可满足通用计算、大型数据中心、云计算中心的计算需求。
胡伟武表示,龙芯基于自主指令系统的基础软件生态基本建成,基于自主 IP 核 CPU 性能达到市场主流产品水平,基于自主工艺可以基本满足自主 CPU 生产要求。
龙芯3D
2022年12月,32核的龙芯3D5000产品已经完成研发,2023年4月8日上午,2023中国·
鹤壁市信息技术自主创新
高峰论坛召开,
龙芯中科副总裁
张戈发布了新款高性能服务器处理器——龙芯3D5000。
龙芯3D5000通过芯粒(chiplet)技术将两个3C5000的硅片封装在一起,是一款面向服务器市场的32核CPU产品。龙芯3D5000集成了32个LA464处理器核和64MB片上共享
缓存,单机系统最多可支持四路128核。龙芯3D5000片内还集成了安全可信模块工程。龙芯3D5000采用龙芯自主指令系统龙架构,无需国外授权,具备超强算力、性能卓越的特点,可满足通用计算、大型数据中心、云计算中心的计算需求。
龙芯3D5000的推出,也标志着
龙芯中科在服务器CPU芯片领域进入国内领先行列。
产品系列
应用
价值意义
龙芯为改变中国信息产业无‘芯’局面迈出了重要的步伐”。
荣誉
轶事
中国科学院大学2019级本科生录取的通知书里嵌入了一枚“龙芯三号”实物芯片,被誉为2019年最“硬核”大学录取通知书。
参考资料
服务器产品.龙芯中科技术股份有限公司.2024-09-29
行业终端产品.龙芯中科技术股份有限公司.2024-09-29