tops算力FPGA设计

发布时间: 2023-05-02 23:04:19

㈠简要介绍当前为人工智能提供算力的芯片类型及特点

给人工智能提供算力的芯片类型有gpu、fpga和ASIC等。
GPU，是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上图像运算工作的微处理器，与CU类似，只不过GPU是专为执行复杂的数学和几何计算而设计的，这些计算是图形渲染所必需的。
FPGA能完成任何数字器件的功能的芯片，甚至是高性能CPU都可以用FPGA来实现。 Intel在2015年以161亿美元收购了FPGA龙 Alter头，其目的之一也是看中FPGA的专用计算能力在未来人工智能领域的发展。
ASIC是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。严格意义上来讲，ASIC是一种专用芯片，与传统的通用芯片有一定的差异。是为了某种特定的需求而专门定制的芯片。谷歌最近曝光的专用于人工智能深度学习计算的TPU其实也是一款ASIC。

㈡从计算机硬件设计的角度分析如何提供更为丰富的算力

自上世纪90年代互联网技术诞生以来，移动互联网、云计算、大数据、人工智能等新一代信息技术的不断发展和逐步成熟，并日益深入的渗透到经济社会的各个领域，2020年全球范围内爆发的新冠疫情又进一步加速了这一趋势，数字经济已经成为世界经济发展的新阶段，即世界经济发展已经进入数字经济时代。
党中央、国务院和各级政府高度重视数字经济的发展。从2015年《中国制造2025》、《促进大数据发展行动纲要》等政策出台以来，中央和各级地方陆续以推出系列数字经济发展的措施，并支持雄安新区、浙江、福建等六个地区建设国家数字经济创新发展试验区，支持北京、上海、深圳、西安等地建设国家新一代人工智能创新发展试验区。2020年国家进一步提出加强新型基础设施建设，并明确将数据作为一种新型生产要素写入政策文件，这些将为数字经济的发展奠定更加坚实的基础。
农业经济时代，土地、水源和工具是关键资源。工业经济时代，能源、原材料、机器设备和生产工艺等是关键资源。那数字经济时代的关键资源是什么呢？数字经济时代的关键资源是数据、算力和算法。数据是数字经济时代的原材料，各种经济活动中都在源源不断的产生的数据，越来越多的组织也将数据当作一种资产，在政策层面数据已经成为一种新型生产要素。算力相当于数字经济时代的机器设备和生产力，面向各种场景的数据产品或应用都离不开算力的加工和计算，而且对算力的需求和要求也越来越高。算法是数字经济时代的生产工艺，面向图像、语音、自然语言处理等不同的应用场景和领域的算法也层出不穷，算法的提升和改进可以提高算力的效率和更多的挖掘数据价值。
本文重点分析算力方面内容，介绍算力市场总体情况，当前算力发展的特点和趋势，以及重点算力供应方式等。
一、算力需求快速增长，算力投资具有多重经济价值
算力即计算能力，核心是CPU、GPU、NPU、MCU等各类芯片，具体由计算机、服务器、高性能计算集群和各类智能终端等承载。数字经济时代，数据的爆炸式增长，算法的复杂程度不断提高，对算力需求越来越高。算力是数字经济发展的基础设施和核心生产力，对经济发展具有重要作用，根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》，计算力指数平均每提高1点，数字经济和GDP将分别增长3.3‰和1.8‰。
随着数字经济的不断发展，人工智能、物联网、区块链、AR/VR 等数字经济的关键领域对算力的需求也将呈爆炸式增长。根据华为发布的《泛在算力：智能社会的基石》报告，预计到2030年人工智能、物联网、区块链、AR/VR 等总共对算力的需求将达到3.39万EFLOPS，并且将共同对算力形成随时、随地、随需、随形 (Anytime、Anywhere、AnyCapacity、Any Object) 的能力要求，其中人工智能算力将超过1.6万EFLOPS，接近整体算力需求的一半。OpenAI开发的GPT-3模型涉及1750亿个参数，对算力的需求达到3640PFLOPS，目前国内也有研究团队在跟进中文GPT-3模型的研究。
算力投资具有多重经济价值，不仅直接带动服务器行业及上游芯片、电子等行业的发展，而且算力价值的发挥将带动各行业转型升级和效率提升等，带来更大的间接经济价值。根据《泛在算力：智能社会的基石》报告，每投入1美元算力即可以带动芯片、服务器、数据中心、智能终端、高速网络等领域约4.7美元的直接产业产值增长；在传统工厂改造为智能化工厂的场景下，每1美元的算力投入，可以带动10美元的相关产值提升。
二、算力发展的特点及趋势
随着数据规模的增加和算法复杂度的提升，以及应用多样性的不断丰富，对算力提出的要求也越来越高，当前算力发展呈现出三方面的特点，一是多种架构百花齐放的状态，二是中心化的算力与边缘终端算力快速发展，三是专用算力日渐成势。
近年来多种算力架构并存并快速发展。曾经x86架构的算力占绝对优势，英特尔和AMD基本垄断了X86算力架构市场，海光信息通过跟AMD合作获得x86架构的授权；如今基于ARM架构的算力份额不断扩大，特别是在移动端ARM架构算力成为主流，华为海思等主要产品是基于ARM架构，另外天津飞腾的产品也是基于ARM架构。随着人工智能等算力需求的不断增加，GPU算力的需求不断增加，英伟达在GPU算力市场占有绝对优势，AMD也分了一杯羹，叠加比特币挖矿算力需求，导致市场上GPU卡供不应求。近几年国内也出现几个GPU方面的创业团队，如寒武纪、登临科技、燧原科技等。此外，Risc-V、存算一体化架构、类脑架构等算力也不断涌现，不过这些算力刚刚起步，在应用生态等方面还需要一定较长的培育过程。
中心化算力和边缘终端算力快速发展。随着7nm制程日渐成熟，基于7nm制程的CPU、GPU等算力性能得到极大提升，目前7nm制程算力主要是中心化算力，移动端智能手机的处理器算力部分也已经采用7nm制程。台积电的7nm制程已经实现规模化，并开始攻关3nm工艺制程；中芯国际7nm工艺制程仍在技术攻关当中。随着5G及物联网应用的不断增加，边缘终端算力的需求日益增加，特别是自动驾驶、智慧安防、智慧城市等领域算力需求。地平线自动驾驶芯片已经量产，英伟达jetson产品在嵌入式终端产品应用广泛，其他针对特定领域专用边缘终端芯片创业公司层出不穷。
针对图像、语音等特定领域的专用算力日渐成势。一方面是芯片工艺制程越来越逼近摩尔定律的极限，另一方面是物联网智能终端对功耗的要求等，针对特定领域的专用芯片层出不穷，并且越来越多的巨头参与其中。谷歌的TPU专为机器学习定制的算力，阿里平头哥的含光NPU专为神经网络定制的算力，赛灵思的FPGA算力，网络研发针对语音领域的鸿鹄芯片以及云知声、思必驰、探境科技等也推出智能语音相关的芯片，北京君正、云天励飞、依图科技和芯原微电子等推出针对视觉和视频处理相关的专用芯片。
三、算力供应以公有云和自建算力为主，多种方式相补充
当前的算力供给主要包括公有云、超算中心、自建算力、地方算力中心等方式。其中，公有云和自建算力中心是算力的主要来源方式，超算中心及地方算力中心等多种方式相互补充。
规模化的算力供应通常通过数据中来承载，新建数据中心的不断增加，将带动未来算力资源的供应不断扩大。据中国电子信息产业发展研究院统计数据，2019年中国数据中心数量大约为7.4万个，大约能占全球数据中心总量的23%，其中大型数据中心占比12.7%；在用数据中心机架规模达到265.8万架，同比增长28.7%；在建数据中心机架规模约185万架，同比增加约43万架。2020年国家大力支持“新基建”建设以来，数据中心作为“新基建”的重要内容，京津冀、长三角和珠三角等算力需求地区，以及中西部能源资源集中的区域，如内蒙、山西等，均在推进新的大中型数据中心的建设。
公有云以其稳定和易用等特点，成为许多企业特别是中小企业的算力首选方式。据不完全统计，阿里云服务器总数接近200万台，腾讯云服务器总数超过110万台，华为云、网络云、京东云、AWS等云厂商服务器总数未找到确切数据，保守估计各类云厂商服务器总数之和也超过500万台。而且在国家宣布大力支持“新基建”建设之后，腾讯宣布未来五年将投资5000亿元用于云计算、数据中心等新基建项目的进一步布局，阿里云宣布未来三年阿里将投2000亿元用于面向未来的数据中心建设及重大核心技术研发攻坚，网络宣布预计到2030年网络智能云服务器台数将超过500万台。各大云厂商仍在继续加大算力投入，公有云算力供应将会更加充裕。
自建算力以其安全性和自主性等特点，成为政府、大企业及其他关注安全的组织的算力首选方式。政府、银行及高校和央企等，通常通过自建或租赁数据中心的方式自建算力，满足自身各项业务的算力需求。许多互联网公司在刚开始时选择使用公有云服务，但规模发展到一定程度时通常都会开始自建或租赁数据中心的方式自建算力。其他有部分各种类型的企业，出于安全、商业机密和隐私等方面的考虑，不意愿把数据和业务等放到阿里云等公有云上，往往选择托管服务器的方式自建算力，规模更小企业直接就在本地使用。2020年6月快手宣布投资100亿元自建数据中心，计划部署30万台服务器，字节跳动等大型互联网公司都在不断加大数据中心的建设。
超算中心和地方算力中心作为算力供应有效的补充方式，适合于大规模计算需求的应用领域。截至2020年，科技部批准建立的国家超级计算中心共有八所，分别是国家超级计算天津中心、广州中心、深圳中心、长沙中心、济南中心、无锡中心、郑州中心和昆山中心。超算中心主要的算力资源以CPU为主，新建的超算中心及更新升级过程中超算中心逐步增加了异构GPU算力资源。超算中心较好的满足和弥补了高校科研中算力资源的需求，特别是在工业仿真、生物信息、新材料、气象、海洋等科学计算领域。国内主要省市地区基本都投资建设了当地算力中心，重点服务本地科研和产业发展的需求，如太原、苏州、福建等地，目前通常地方算力中心的规模并不大，计算节点数在200-500之间居多，主要服务于当地气象、工业仿真和生物信息等领域计算需求。此外，2020年以来，武汉、南京、珠海、许昌等地区正在建设人工智能计算中心，将在一定程度上弥补当前规模化AI算力不足的情况。
结语
算力作为数字经济的基础设施，也是数字经济时代的生产力和引擎，越来越成为数字经济时代国家竞争力的体现。根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》，中国和美国的算力建设在全球处于领先地位，美国的算力无论在规模、效率、应用水平等方面都领先于中国。此外，从算力芯片供应角度看，美国的英特尔、AMD、英伟达等企业几乎占了全球的绝大部分的市场份额。可见，中国在算力建设和发展仍然需要加大投入和加强研发等，发挥优势的同时弥补不足，从而为数字经济长期发展奠定更加坚实的基础。

㈢为什么电子元器件产品更容易受到美国出口管制部门的关注

我们带大家粗略解读了一下这次美国芯片及技术出口管制新规的一些特别之处，并且很明确的指出了这次技术和产品的出口管制已经明显具有“芯片战争”的硝烟，从某种层面上已经将中国列为对其有明显安全威胁的国家，今天我们就来深入分析一下美国出台这部分芯片管制的背后原因以及对中国半导体及ICT产业发展的影响。

首先我们详细说一下为什么这次的新规具有明显的宣战意味。我们先不提这次一次性列举的几十家企业将面临比华为更为严格的限制，先看看美国正常的出口禁令标准是什么。美国的高科技特别是电子信息技术一般有几种不同的安全级别，最高的限制肯定就是禁止出口，这里面核心都是一些军用技术，特别是一些高度机密的核心技术，比如其早期的隐形战机涂料，相控阵列雷达扫描，超高速超高性能模拟系统等，当然一些高精尖的仪器设备也属于这部分管制范围。第二类就是高级别的军用的产品和技术，这部分禁运的范畴主要是非军事友好国家，比如北约阵营之外国家以及除了日本韩国这些美国有驻军的国家之外，典型的就是澳大利亚这类算是友好的国家也在第二类禁运范畴内。第三类禁运就有意思了，基本都是美国认为的对其有明显威胁国家，基本都是跟美国无外交关系或者正在处于战事中的国家，这部分的禁运清单很长，甚至最严格的是所有包含一点点美国产品和技术的产品和系统都不能销往这些国家。我们熟知的俄罗斯，也是因为克里米亚之后才被美国开始部分限制禁运，而全面禁运则是乌克兰战争开始之后。举两个例子，华为就是被“诬陷”把含有美国产品的整机卖给伊朗而被美国制裁，而某家被收购的免税州企业因为把给海军订单的产品型号面板未加改动就换壳成民用产品以及曾将某个产品卖给巴铁，而先后两次受到美国政府勒令SVP背锅辞职加高额罚款。

那么这次新规中突出强调的高性能计算芯片和高性能计算设备，让这两个很明显绝大部分不是针对军事用途的产品出口中国受到严格管控，把中国当作威胁其国家安全的国家的意图已经是司马昭之心了，这意味着中国正常民用科技发展在美国人眼中是高度威胁其安全的存在，那么这不是宣战又是什么？毕竟在37年前合资企业这个模式的出现，就是为了绕过美国所谓的军用设备出口管制而发明的，同样是很多军用相关的高性能模拟芯片，曾经经常以科研用途的方式，藏身于某些整机产品中，远渡重洋走进某些科研院所。而这些产品和设备，都是因冠以MIL认证标准而奇货可居的。

当然，从另一个角度来说，中国的某几个领域确实已经让美国人感到了威胁，而这几个领域也许就是未来科技竞争的主要战场，因此在中国还没有完全建立强大的芯片产业之前，从前端控制中国部分产业的发展，这很明显是美国人对之前“绥靖政策”不能再拖延的“拨乱反正”。

如果非要把半导体产品跟军事联系起来，按说高性能模拟芯片首当其冲，而有趣的是，针对中国的出口限制中，在所有非MIL标准体系下的高性能模拟产品都没有享受到过如今这些高性能计算芯片的待遇。这已经很能说明美国新规的目的从来不是限制中国的军事用途或者所谓的用AI来训练军事的目的，其核心就是要严格限制中国高性能计算领域的飞速扩张。这其中，AI、云计算和超级计算机，是最受影响的几个领域。反倒是很多人提出的自动驾驶领域，笔者认为影响还不算大。

先说自动驾驶这部分，很多人可能认为因为NVIDIA在自动驾驶方面的算力优势非常明显，因此未来的A100和H100这些产品禁运将严重影响中国的自动驾驶技术的发展。笔者认为，从逻辑上这么看是没错的，但从实际技术指标上和目前国内自动驾驶的发展情况看，情况并没有想象的那么差。首先，自动驾驶目前能做到L4级已经是现有技术看到的极致了，即使按照某些最苛刻场景的自动驾驶（车载独立计算），算力也并不需要做到4800+。其次，国内虽然很多自动驾驶早期用NVIDIA的芯片做研究，但得益于互联网造车新势力的融资需求，真正应用到整车时都宣传自己设计主处理芯片。国内部分厂商面向L3级自动驾驶的自研芯片按美国这次的标准算，TOPS算力大概在1500-3000左右已经是很高的标准了，远达不到被禁止设计和生产的要求。再者，对自主设计芯片要求不高的传统车厂选择Tier1合作的自动驾驶方案，也很少会用到高算力的主处理芯片，更多会选择V2X这种对实时算力要求不高的系统性方案。至于很多人担心的未来超过4800算力的芯片设计都将缺少美国EDA的支持，这点在自动驾驶方面短期内也不太会受限制，一方面，专用芯片执行效率更高，因此基础算力不需要太高也能满足自动驾驶基本需求，至于L5的需求和所谓超高性能汽车主处理器，这部分都是用来提升融资额度的筹码，现在美国的新规反倒像是帮投资者更客观评估智能驾驶企业估值的标尺。另一方面，现在的NVIDIA A100裸芯片售价依然在5000+美元左右的高位，一张A100卡则是高达上万美元。就算自动驾驶汽车可以卖得很贵，号称一台补贴十几万的蔚来整车成本也不过5万美元，考虑到电池需要占40%成本，还用得起裸片成本5000+美元的A100么？

所以，真正美国瞄准的是中国的超级计算机和高性能服务器以及AI应用。毕竟在全球云计算领域，基本上已经是中美争霸的格局了，而面向未来的AI应用（非工业）方面，其他国家加起来积累成果可能都不及中美一个国家。在本次禁令正式发布之前就传出的GPU出口管制，就是针对高性能服务器和AI应用的，只不过，现在加上了高性能处理器和高性能计算整机。深究一些细节，就能看出这份禁令真的是有的放矢，处处卡住了关键技术指标。比如“满足输入输出（I/O）双向传输速度高于600GB/s”，直接卡住了高性能加速应用；“每次操作的比特长度乘以TOPS 计算出的处理性能合计为4800 或更多算力的产品”，这几乎是超大规模AI模型训练的入门级标准。两个结合起来，基本上是2018-2019年左右最先进服务器的技术指标，而现在已经是2022年了，NVIDIA的A100是2020年的产物，而H100才是2022年新一代。与此对应，曾经认为可能不会受禁令现在的AMD的MI100现在看也很难过关（标称值1.2TB/s带宽，算力也是对标A100的存在），新推出的MI250早就被证实肯定会禁止出口到中国。在高性能服务器的加速卡方面，离开最主流的GPU加速卡，未来中国的高性能服务器未来只能依靠FPGA和其他ASIC了，很可惜的是，能媲美GPU的FPGA加速技术恰恰只掌握在已被密切关注的AMD和目前尚未被牵扯进来的Intel手上。而ASIC加速卡要达到同样的水平，恐怕只能寄希望于先进制程的发展了，哦，我们忘记了，美国人把3nm GAA的EDA在8月份就开始全球设计审核管制了。而对中国市场的半导体工艺设备和技术管控，早在几个月前就已经实施了，即使以应用材料和LAM这些设备巨头去抗议，估计也很难有明显的政策松动。

在超算方面，“FP64（双精度）理论计算能力是在100 petaFLOPS（每秒千万亿次浮点运算）或者以上，FP32（单精度）在200 petaFLOPS 或者以上浮点算力的超级计算机”，这部分基本上是超算前500的实力，进口倒是不多，但如果零件上要管控，我们的超算未来可能就会很尴尬了。

而在AI训练模型这方面，算力几乎是最迫切的需求，这也是为何NVIDIA能够短短几年内在销售额未尽前十的前提下，依然能成为半导体市值第二的公司。这也是为何一向沉稳的AMD愿意对标A100推出MI100这种型号倒退但部分性能大幅跨越的产品的初衷。按照美国这次的标准，恐怕笔者曾经认为的AI应用沧海遗珠Gaudi2也难于幸免了。换句话说，目前最主流的2021年之后推出的AI训练模型用计算芯片，基本上都很难摆脱这次新规的要求。当然我们也看到一些特别的初创公司的AI计算芯片，如果达不到A100的入门标准，那么也只能算是无奈之选，算力本来就是目前AI发展的技术瓶颈，这次管制必将大幅拖累中国AI训练及相关应用的发展速度，即使我们已经看到一些有落地盈利可能的AI应用，也可能因为技术上的滞后而错失抢占应用制高点的先机。

当然我们也看到一些国内GPU和AI芯片企业开始了国产替代之路，并且多款产品也是对标A100性能甚至还有所超越，但从实际反馈来看，也许硬件标称性能已经达到了，但结合软件算法之后的实际效果似乎差了不少。毕竟在这个几乎所有开发都是基于NVIDIA布局十多年的Tensor体系下，国产AI芯片要做到跟主流AI软件兼容，笔者感觉与其行百里者半九十，还不如推倒了体系重新来过。反正从这次美国的政策看，未来指望靠N，A,I三家产品来与美国AI水平并驾齐驱简直是No Any Impossible，还不如趁此机会好好从头开始搭建一下中国的AI技术体系，别忘了我们现在还有一个关键的竞争优势——人工标注。

当然，我们也可以基本跟未来的挖矿产业挥手告别了，这个本来就灰色的产业将因此次管制新规逐渐淡出部分国内矿机公司的未来战略规划，毕竟挖矿要先进工艺作保障，3nm GAA的EDA已经被管制了，美国政府这次这么苛刻的限制高性能计算芯片，谁都知道矿机芯片的算力池还是很可观的，那么你猜美国人会不会放你去用EDA设计GAA芯片来扩充国内AI算力？

我们分析了这么多这次新政的影响，并不等于我们要悲观的投降，反而我们可以借助一些机会重塑我们的ICT产业结构，而这是这场芯片战争中，中国与三十多年前日本最大的不同之处。下一期我们将深入探索芯片战争中的应对策略和我们独特的优势。

㈣如何看待百度自主研发的昆仑芯片

昆仑是中国在大规模AI运算实践中催生出的芯片，基于网络8年的CPU、GPU和FPGA的AI加速器的研发，通过20多次迭代而生。

因此，“昆仑”也是迄今为止业内设计算力最高的AI芯片（100+瓦特功耗下提供260Tops性能）。

与市面上已发布的适用于垂直场景的芯片不同，网络之所以将“昆仑”定义为国内首款云端全功能芯片，是因为其可高效地同时满足训练和推断的需求，除了常用深度学习算法等云端需求，还能适配诸如自然语言处理，大规模语音识别，自动驾驶，大规模推荐等具体终端场景的计算需求。

综合来看，“昆仑”拥有高性能、高性价比、易用3大特点。

（1）高效：针对语音、NLP、图像等专门优化。

（2）低成本：同等性能下成本降低10倍。

（3）易用：支持paddle等多个深度学习框架；编程灵活度高；灵活支持训练和预测。

从2011年起，为了深度学习运算的需要，网络开始基于FPGA研发AI加速器，并同期开始使用GPU。在过去几年中，网络对FPGA和GPU都进行了大规模部署。

AI应用的爆发，对运算能力提出越来越高的要求，基于传统芯片的AI运算加速，已经不能满足需求。在大规模AI运算的实践探索中，网络研发出了一款专门用于AI大规模运算的芯片“昆仑”，它的运算能力比最新基于FPGA的AI加速器，性能提升了近30倍。

㈤中国车规级边缘计算芯片或落地日内瓦地平线吹响车上算力集结号

虽然欧洲当下也受到疫情的影响，但截至目前，将于3月5日开幕的日内瓦国际车展，官方并没有正式发布推迟或取消的计划。包括中国车企在内的多家汽车产业巨头仍将如约参展。相比往年，今年中国车企的参展作品具有特别的意义，因为搭载中国车规级边缘计算芯片的全新车型即将在车展上亮相。这意味着，中国车企的竞争力，已不再局限于以往的发动机、变速箱、车身、底盘、外观，而是面向着汽车更高层次的发展，面向着汽车发展的未来——人工智能，吹响集结号。而号手——这枚车规级边缘计算芯片的生产商，便是来自中国的地平线。

地平线在自动驾驶领域的车规级芯片量产落地，对于中国汽车业整体无疑是一个好消息。可以预见的是，未来汽车以及人工智能产业对算力的需求是惊人的。在过去的数年里，我们看到智能驾驶的等级每提高一级，算力差不多要提升一个数量级。如果要实现全自动驾驶，车辆需要数千个TOPs量级的算力。但当下汽车市场上的产品，其平均算力也没能达到个位数的TOPs。所以在庞大的市场需求面前，中国企业的力量就显得至关重要。如果我们并不注重这块战略高地，或许依旧会像飞机发动机、汽车的动力总成一样受制于海外。而中国国力量的出现，不仅意味着我们的战略高地有望得到坚守，并可能在世界市场上攻城略地。有行业内专家预计，征程芯片两年内将有望达到百万量级的前装装车量，五年内则有望完成千万量级的目标。

本文来源于汽车之家车家号作者，不代表汽车之家的观点立场。

㈥三强争霸高端FPGA（一）

英特尔在早前宣布，他们已开始将其第一批新的Agilex FPGA交付给抢先体验的客户。这使得最大的两家FPGA供应商之间竞争进入到了“正面交锋”阶段。Xilinx于6月份交付了他们的第一款“ Versal ACAP”FPGA，因此，在经历了一场漫长而有争议的“谁能首先交付？”之战之后。事实证明，这两家竞争公司都可以在大约两个月内，开始交付其可用来与对手对标的FPGA产品线。这意味着，与其他凭借第一时间引入先进节点来提升性能的竞争不同，这两家公司都没有足够的时间好搭去利用一种新的、更先进的技术来赢得设计上的胜利。

不过，这次竞争的领域扩大了，新玩家Achronix声称他们将在今年年底之前交付其新型Speedster 7t FPGA的首批样品。对于开发团队而言，这意味着到今年年底，将有三款完全不同的高端FPGA产品可供选择——所有这些产品都采用类似的工艺技术，并且均具有独特的功能。

本篇文章是比较这三家供应商的新高端FPGA系列的多部分系列中的第一部分。我们将研究底层的工艺，FPGA逻辑组织（LUT）本身，用于加速处理和联网的强化资源，存储器架构，芯片/封装/定制架构，I/O资源，设计工具策略，每个产品的独特和新颖的特性和功能，以及营销策略。如果您是可以从大量FLOPS，疯狂的带宽或是从设计过的一些有趣，功能强大的半导体器件中获得乐趣的人，那么，这对你来说将是一次令人兴奋的旅行。

注意事项–英特尔和Achronix都参与其中，并提供了本文的信息。Xilinx没有回应我们对信息的请求。

这一次，高端FPGA的霸主地位有所改变。过去，高端FPGA最大的市场是在网络方面，市场份额的变化也是如此，这主要取决于谁可以为部署最新一轮的有线和无线网络客户的产品提供最丰富的设计，，谁就可以取得较大的市场份额。然而，5G推出的时机已经改变了这一动态。在当前的FPGA技术浪潮到来之前，5G就已经开始加速扩展。因此，第一轮5G的主干网是建立在上一代可编程逻辑上的。这些器件将融入一个已经很强大的5G生态系统，因此，我们无法确定5G的彻底革命和新一代FPGA的诞生之间是否保持了一致。这些FPGA的设计已经充分理解了5G的机制。但是，不要低估FPGA对5G的重要性，或者5G对FPGA市场的重要性。今天，当你使用手机时，你的通话有99%的可能是通过FPGA进行的。有了5G，FPGA的影响会更大。

随着数据中心加速（主要是针对AI工作负载）这一新兴市场的快速扩展，这一现象引起了人们的兴趣。据估计，人工智能加速市场将在未来几年中飞速发展，因而这三家供应商都将以其令人印象深刻的性价比和更高的能效来争夺这些设备的大部分市场份额，并声称他们提供的解决方案可以一直延伸到边缘/端侧。这些供应商中的每一个都非常清楚地意识到占领这些AI加速卡插槽是当务之急，并且他们都围绕这个想法设计了新芯片。

让我们看看所有这些因素吧？

从底层工艺技术来看，Xilinx和Achronix FPGA系列在基于TSMC 7nm而设计，而Intel Agilex则采用了性能相近的Intel 10nm工艺。不要被7/10命名差异所迷惑。不要被7/10的命名法差异所混淆。我们很早以前就曾指出，半导体行业的营销团体根据市场上听起来不错的东西来命名节点，而不是从晶体管本身的任何可识别的特征中推导出它们。据我们估计，TSMC的7nm和Intel10nm是大致相当的工艺，使用这两种工艺的厂商基本一致。这意味着英特尔在工艺技术方面长期保持的领先地位似乎蠢棚已经消失，不过，当我们接近摩尔定律的瓶颈时，硅加工领域的竞争升级是不可避免的。

当推进到最新的半导体工艺节点，这三个供应商都获得了适度的推动。然而这种推进已不可能达到摩尔定律的历史标准，因为在过去几个工艺节点的新流程更新所带来的收益增量一直在稳步下降。每个人从FinFET技术问世中都获得了一次友档拿临时性的推动，现在，随着摩尔定律即将在经济层面上终结，我们可能会发现边际收益递减趋势将一直延续。

在过去，随着晶体管尺寸的减小，每个新工艺节点都让晶体管的密度大量提升，并获得更好的性能和更低的功耗。现在，供应商必须在这三者之间进行权衡，并且即使在他们偏爱的指标上，通常也只能得到较小的回报。同时，转移到新工艺节点的non-recurring费用继续呈指数级增长。这意味着FPGA公司所承担的风险急剧上升，这是因为为了保持竞争力，他们需要不断投资才能获取不断减少的收益。这也意味着我们正在进入一个新时代，FPGA本身的架构和功能、FPGA工具以及这三家公司的营销策略将成为影响收益的关键因素，而不是谁将率先使用新的制程工艺。

考虑到工艺技术实际上是一种洗礼，让我们看一下每个供应商产品的功能和特性。从最基本的FPGA功能– LUT结构开始。我们经常感叹每个公司对LUT的计算都不一样，而且这个游戏每一代都变得更加复杂。Xilinx和Achronix当前使用的是6输入LUT，而Intel的ALM本质上是8输入LUT。厂商或多或少地同意我们可以使用2.2 LUT4s per LUT6,，和2.99 LUT4s per LUT8将不同的LUT转换为等价的4输入LUT。

根据这方法一计算，Achronix Speedster 7T系列包括从363K到2.6M LUT6（相当于800K到5.76M的等效LUT4）领先业界，Intel Agilex系列包括 132 K到912K 的ALM（相当于395K到2.7M的等效LUT4），Xilinx的Versal系列产品包含了约246K到984K CLB（可换算成541K到2.2M的等效LUT4）。每个供应商都声称自己的体系结构优越，着重强调了可以提高某些特定应用或配置中的逻辑密度，性能或可布线性的设计功能。目前，我们尚不清楚任何供应商的LUT是否明显优于其他任何供应商的LUT。

但是，FPGA可用资源不仅取决于LUT的数量。还必须考虑以下挑战：被有效使用LUT的百分比（我们将在稍后讨论设计工具时进行讨论），以及集成到逻辑模块中的强化功能的数量，这些功能允许以最小的方式实现设计功能LUT结构的参与。根据您的设计，您可能会发现更多内容被塞入一个或多个FPGA中，而这些内容和LUT数量无关。

FPGA“擅长”人工智能推理的主要原因是其可以并行完成大量的算术运算（主要是各种精度的乘法累加），这要归功于编织在可编程逻辑结构中的存在大量"DSP块阵列"。这使得FPGA能够比传统的冯·诺依曼结构的处理器更有效地执行例如卷积等矩阵运算。

分析对AI推理至关重要的硬件乘法器，Achronix的可变精度乘法器可实现41K int-8乘法或82K int-4乘法。英特尔Agilex具有2K-17K 18×19乘法器，Xilinx Versal有500-3K“DSP引擎”，大概是“ DSP58 slice”，包括27×24乘法器和新的硬件浮点功能。这种比较肯定是“从苹果到橙子到芒果”，至于哪种水果更适合您的应用，它必须是“由设计者决定的”。

现在，这三个供应商都增强了对浮点乘法的支持。Achronix为他们的DSP块提供了一个全新的架构，他们称之为"机器学习处理器"（MLP）。每个MLP包含多达32个乘法器/累加器（MAC）、4-24位整数模式和各种浮点模式，可支持包括TensorFlow 的Bfloat16格式和块浮点格式。最重要的是，Achronix MLP将嵌入式存储器模块与计算单元紧密耦合，从而使MAC操作能够以750 MHz的频率运行，而等待通过FPGA组织访问存储器获取数据。

英特尔还使用具有硬件浮点的可变精度DSP模块（基本上就像它们已经提供了多年的功能一样）。英特尔的浮点支持也许是三者中最广泛和最成熟的。借助Agilex，他们推出了两种新的浮点模式，即半精度浮点（FP16）和块浮点（Bfloat16），并且进行了架构调整，以使其DSP运算更加高效。

Xilinx已将其以前的DSP48 Slice升级到DSP58 ——大概是因为它们现在包括了硬件浮点，并且其乘法器也升级到了27×24。因此，在这一代产品中，另外两家供应商也加入了英特尔的行列，提供支持浮点运算的硬件乘法器。对于Xilinx而言，这是一个逆转。赛灵思此前声称，FPGA中实现浮点硬件乘法器不是一个好主意，因为浮点运算主要用于训练，而FPGA则主要针对推理应用。

就可用的浮点格式而言，Versal（最多2.1K乘法器）和Agilex（最多8.7K乘法器）都支持FP32格式。这三个系列均支持半精度（FP16）——Versal最多可支持2.1K乘法器，Agilex最多可支持17.1K乘法器，Speedster最多可支持5.1K乘法器。Agilex（最多17.1K乘法器）和Speedster（最多5.1K个）支持Bfloat16。对于FP24格式浮点乘法，Versal和Agilex可能会使用FP32单元，而Speedster则具有高达2.6K的乘法器。Achronix Speedster还支持多达81.9K的块浮点乘法器。

Xilinx还带来了一种新的软件可编程矢量处理器——高达400个1GHz +V LIW-SIMD矢量处理核心阵列，具有增强计算和紧密耦合的内存。这为并行化复杂的向量运算并利用FPGA丰富的计算资源提供了更为简单的编程模型。总体而言，是在Xilinx的“kitchen sink”竞争策略上选中了“GPU /推理引擎”。稍后我们将详细讨论这一点。

英特尔对Achronix MLP和Xilinx矢量处理器的回应是老派的演变。他们指出，Agilex DSP模块实现了与其他供应商的新DSP功能相同的功能。可以利用已建立并充分理解的FPGA设计开发流程，并且不需要客户在器件的各个体系结构中去划分他们的设计。如果您的团队具有FPGA/RTL设计专业知识，这是一件好事。但如果你的应用需要由软件工程师来开发DSP，Xilinx的软件可编程方法可能有优势。

除了简单地计算乘数外，我们还可以通过查看供应商关于理论性能的声明来比较这些能力。但有一点需要注意，这些说法被严重夸大了，而且很难精确定义。供应商通常通过将芯片上的乘法器数目乘以这些乘法器的最大工作频率来得出一个数，得出一个"最多XX TOPS或TFLOPS"的数字。显然，现实世界中的设计不会使用到100%的乘法器，没有任何一个设计能够达到这些乘法器的最大理论时钟速率，也没有一个设计能够以适当的速率持续为这些乘法器提供输入数据，并且这些乘法运算的精度因供应商而异。

如果必须估算的话，我们可以说FPGA在实际设计中可以实际达到其理论最大值的50-90％。这要比GPU更好，后者被认为在现实世界中只能达到其理论最大值的10-20％。

在推测INT8操作的TOPS数量时，如果我们将其矢量处理器中的 133 个TOPS包含在内，则Xilinx Versal以大约 171 个TOPS位居榜首。12个来自其DSP块，26个来自其逻辑结构。Speedster紧随其后，有大约86个TOPS，其中61个来自他们的MLP模块，25个来自他们的逻辑结构。Agile xi nt8操作最大值为92个TOPS，其中51个来自DSP块，41个来自逻辑结构。从Bfloat16格式的TFLOPS来看，Agilex以40个领先，Versal以9个紧随其后，Speedster以8个垫底。Speedster在块浮点操作上上获得了很大的优势，但是，它有123个TFLOPS，其次是Agilex的41个和Versal的15个。

这些数字均来自公司自己的数据表。正如我们所提到的，它们是理论上的最大值，在实际的实际应用中是不可能达到的。Achronix宣称的“可用性”具有一定的价值，因为它们的MLP是独特的设计，旨在将可变精度乘法运算维持在模块本身内进行，并以最大时钟速率运行，而无需数据往返于逻辑结构即可完成AI推理中最常见的操作。同样，Xilinx的矢量处理器体系结构应能很好地保持数据平稳地流经算术单元。也就是说，我们还没有看到基准或参考设计以任何有意义的方式来证明这些公司的声称。

当然，要使用所有这些LUT和乘法器，就需要让您的设计实际布局和布线并满足所选芯片的时序要求。随着FPGA的发展，这已成为越来越困难的挑战。单比他网络和逻辑路径通过有限的路由资源分布在巨大芯片上，这使传统的时序收敛逐渐变成一场噩梦。用于在同步设计上实现时序收敛的常规技术均遇到了障碍，无法扩展。Xilinx和Achronix都通过添加覆盖传统逻辑和路由结构的片上网络（NoC）在新一代FPGA中解决了这一问题。NoC从本质上改变了游戏规则，因为整个芯片不再需要在一个巨大的魔术般的融合中实现时序收敛。现在，较小的同步块可以通过NoC传递数据，减轻了传统路由结构的负担，并将巨大的设计自动化工具需要解决的问题分解为更小、更易于管理的问题。

几代以前，英特尔已经采取了另一种方法来解决这一问题——用称为“ HyperFlex寄存器”的大量微寄存器铺平到整个逻辑结构。这些寄存器允许对更长、更复杂的逻辑路径进行重新定时和流水线处理，从而使整个设计实质上变得异步。有趣的是，这也是Xilinx和Achronix使用的NoC的效果。每种方法都面临挑战，因为这两种方法都会给芯片设计和我们使用的设计工具增加大量复杂性。据报道，在英特尔的案例中HyperFlex寄存器对逻辑架构可以实现的整体速度也有一些负面影响。英特尔表示，Agilex FPGA中的HyperFlex体系结构是第二代，并且与上一代HyperFlex体系结构相比具有改进和增强，可以提高性能并简化时序收敛。在Agilex取得进展之后，我们将不得不拭目以待观察用户使用后的反应。

在采用NoC进行路由的两家供应商，Xilinx和Achronix中，Achronix声称通过其二维跨芯片AXI实现实现了最快的NoC。在这一NoC中的每一行或每一列都实现为两个工作在2 GHz的256位单向AXI通道，也就是在每个方向上可以支持512 Gbps的数据流量。Speedster的NoC共有197个节点，最终形成27 Tbps的总带宽，减轻了FPGA传统按位进行路由的资源负担。据我们所知，Xilinx的Versal NoC性能尚未发布，但是大约有28个节点，我们猜测大约是总带宽是1.5 Tbps。

好吧，本周我们的墨水用完了，但下周我们将继续进行下去——看看这些FPGA系列带来的迷人而灵活的存储器架构，每个系列的独特封装和定制功能，疯狂的SerDes IO功能，嵌入式处理子系统，设计工具流程等。

*点击文末阅读原文，可阅读英文 原文。

今天是《半导体行业观察》为您分享的第2125期内容，欢迎关注。

半导体行业观察

『 半导体第一垂直媒体 』

识别二维码 ，回复下方关键词，阅读更多

AI｜晶圆｜台积电｜射频｜华为｜集成电路｜TWS耳机｜小米

回复投稿，看《如何成为“半导体行业观察”的一员》

回复搜索，还能轻松找到其他你感兴趣的文章！

英文原文

！

㈦算力涵盖gpu+cpu+fpga和各种各样的asic专用芯片吗

是的，算力可以涵盖 GPU、CPU、FPGA 以及各种各样的 ASIC 专用芯片。
GPU（图形处理单元）是一种专门用于处理图形和视频的芯片，常用于游戏、视频编辑、人工智能等领域。
CPU（中央处理器）是计算机的核心处理器，负责执行计算机程序中的指令。
FPGA（可编程逻辑门阵列）是一种可以在硬件层面上实现各种逻辑功能的芯片，在机器学习、通信、计算机视觉等领域有广泛应用。
ASIC（专用集成电路）是为特定应用而设计的集成电路，具有高度专业化、高效率、低成本的优势。在区块链、密码学等领域有广泛应用。
总的来说，算力可以涵盖各种计算资源，包括 CPU、GPU、FPGA 和 ASIC 等，用于处理各种不同的计算任务。

㈧百度AI开发者大会玩转了哪些黑科技

作为中美人工智能（AI）技术的先锋企业，在网络与谷歌各自的2018年开发者大会上，AI不约而同成为贯穿全场的主角。不过与谷歌更多讲述公司AI技术的创新与发展相比，7月4日的2018网络AI开发者大会上，网络更多展示了公司AI产业化的实际成果。

网络高级副总裁、AI技术平台体系总负责人王海峰介绍，“目前网络大脑每天的调用次数超过了4000亿次，网络大脑3.0最大的优势是多模态深度语义理解包含视觉、语音、自然语言、数据语义以及多元语义等。多模态深度语义理解不仅能够让机器听清、看清，还能够深入理解语音背后的含义，从而更好地支撑各种应用”。

作为一个以开放为理念的平台，开发者能够通过网络大脑便捷地获取AI能力，王海峰解释，“网络大脑3.0已经对外开放了110多项领先的AI能力，并通过开放EasyDL等定制化平台、软硬一体的AI能力，持续降低AI应用门槛，帮助开发者和企业应用AI实现业务创新与升级。”

打通AI与移动端的“智能小程序”

小程序的普及与流行，俨然成为现今移动端开发者必须紧跟的潮流。显然，网络也不愿意在此掉队。

2018网络AI开发者大会上，网络副总裁沈抖正式对外发布网络智能小程序。据介绍，与其他小程序相比，网络智能小程序不仅可以全面接入网络大脑的AI能力，更将在今年12月全面开源。

网络方面人士解释了网络智能小程序开放性体现的两个层面，“首先，开发者只要简单修改几行代码，就可以将自己在其他平台开发的小程序接入网络智能小程序，进而让这个智能小程序无缝运行在网络系App（网络App、网络贴吧、网络网盘等）以及外部App（哔哩哔哩、58同城等）上，实现一端开发，多端可运行。其次，网络还将开放全域千亿流量扶持开发者，帮助他们快速沉淀精准用户，而网络流量中天然存在大量与资讯、服务、工具等相关的需求，尤其是在网络信息流中，用户看到的内容都是根据兴趣匹配推荐的，这些内容可以激发用户各类需求，适合开发者去挖掘”。

而AI技术对于网络智能小程序的价值，则更多体现在精准获客上。前述网络方面人士分析，网络智能小程序可以基于大数据、意图识别、兴趣识别等技术精准找到各类智能小程序用户，有效缩短用户转化途径，为开发者和合作伙伴带来实实在在的商业效益。

网络方面提供的资料显示，接入网络智能小程序后，查违章智能小程序全网的日活跃用户在50天内增长了370%，火车票智能小程序订单转化率在20天内提升了44%。同时网络贴吧小程序上线以来，用户人均使用时长也增加了30%以上。

㈨ Fpga哪颗芯片做矿机算力

Fpga矿机芯片做矿机算力
主要功能
1、可远程升级算力：具有更强的动态编程能力，以容纳不断完善的协议制度
2、超大算力：1700M/台，最高可升级5100M
3、可再编辑、灵活行强
4、标准服务器外观
5、低功耗

㈩一群清华的博士，在天上玩起了“卫星智能”

随着遥感卫星为代表的卫星数量的增加和信息收集能力的提升，我们能够通过卫星拍摄的高清影像鸟瞰地球万象，感知地球变化。例如“高分二号”在2017年拍下的故宫，地面分辨率就已经小于一米，让我们从天空俯瞰故宫全貌，欣赏北京城中心的壮阔之美。

“高分二号”在2017年拍下的故宫，地面分辨率小于一米

而越来越清晰的卫星图像背后，则是遥感卫星正在产生海量的数据——根据自然资源部《卫星遥感应用报告》（2020年）[1]，中国在轨的自然资源遥感卫星已经达到19颗，全年数据量达到了1.6PB（1PB = 1024TB）。

但以往中国自己的卫星星地间传输，可不像我们日常生活中使用手机这样的5G网络便捷，想将这么多数据传回国内并不容易。考虑到中国目前卫星地面站建设少，因此只能在路过中国上空时才能获得回传数据的短短几分钟窗口，且一次只能传输几十Gb的有限数据，所以，卫星在数据传输上消耗的时间，远远大于拍摄的时间。

以拍下上面这张图的“高分二号”为例，卫星星上能储存大约4Tb的数据、记录不少于20分钟的拍摄信息；“高分二号”的传输带宽是2x450Mbps，也就意味着回传4Tb数据需要超过75分钟。而每次经过中国上空仅能获得数分钟窗口时间，则需要多次下传和以天计算的时间延迟才能最终完成这一工作。

随着商业卫星的蓬勃发展，不仅仅是遥感卫星的数据的采集和处理越来越成为了一个问题，包括通信、导航、科研、技术试验卫星在内的全产业链乃至最终的卫星互联网和空天地一体化网络，都面临着这样的瓶颈。

刘冬宇 | 作者

李拓 | 编辑

更多卫星数据，更广阔的市场

地球空间正在变得忙碌。在果壳硬科技之前的文章中曾提到[2]，根据UCS Satellite Database的统计，截至去年9月1日，地球轨道上已经有了4550颗卫星，其中在过去的一年间，人类就新发射了超过一千颗卫星，这要归功于商业卫星产业的高速发展——特别是卫星最多的美国，并且其中绝大多数都是商业卫星。

UCS Satellite Database 及公开火箭发射数据

中国的商业卫星公司虽然发展势头不错，但还没有像美国那样，把更多商业卫星送上天；而政策的支持，是中国的商业卫星公司们最期待的发展要素。而在春节假期之前，国家就给卫星行业送了一个“大红包”：《2021中国的航天》白皮书，给商业航天定调支持。具体的措施，既包括对商业航天发射的支持——

未来五年，中国将在强化航天产品统一技术体制的基础上，进一步完善现有航天发射场系统……建设商业发射工位和商业航天发射场，满足各类商业发射需求。

也不乏更多商业化机会——

未来五年，中国航天将紧紧抓住数字产业化、产业数字化发展机遇，面向经济社会发展和大众多样化需求，加大航天成果转化和技术转移，丰富应用场景，创新商业模式，推动空间应用与数字经济发展深度融合。拓展卫星遥感、卫星通信应用广度深度，实施北斗产业化工程，为国民经济各行业领域和大众消费提供更先进更经济的优质产品和便利服务。培育发展太空旅游、太空生物制药、空间碎片清除、空间试验服务等太空经济新业态，提升航天产业规模效益。

暂时抛开太空旅游、空间碎片清除等距离商业化还尚需时日的方向，今天目所能及的商业卫星业务，还集中在通信、导航、遥感和科学实验四大领域；对于中国商业卫星公司，由于导航与通信领域主要由“国家队”牵头，遥感便成了商业化突破最为迅猛的领域。

遥感卫星在全球范围内已实现高度商业化。根据SIA数据及头豹研究院的整理，在2020年，全球卫星遥感服务市场已经达到24.2亿美元，在2025年预计将达到43.6亿美元[3]。另一份数据则表明，2020年，中国遥感卫星市场估计为81.8亿人民币，从2018年至2020年，每年增长率在8.23%~8.34%。[4]

全球卫星遥感服务行业市场规模。图丨SIA、头豹研究院[3]

中国遥感卫星行业市场规模。图丨前瞻产业研究院[4]

蓬勃的市场，也时刻面临着文章开头的难题： 数据量大，但有效数据少；传输时间过长，导致数据的时效性差，限制了遥感卫星的应用场景 。

比如一颗典型的光学卫星，如果在某一圈飞行中开机拍摄10分钟，那么数据的回传还需要再绕地飞行十圈甚至更多，且只能在每次路过中国上空时传回一部分原始数据。星测未来联合创始人、COO曹德志向果壳硬科技介绍，在耗费大量时间、卫星能源下传的原始数据中，又会因为云层遮挡等原因，无效数据的占比可能超过一半。

还有另一类蓬勃发展的遥感卫星，SAR卫星，SAR即“合成孔径雷达”（Synthetic Aperture Radar）。这是一类使用微波雷达进行探测的卫星，且不受天气与云层影响，具有全天时、全天候的优点，并且对地表物体的高度非常敏感（最高可达毫米级精度），还能分析地表植被、含水量等信息，因此格外适用于气象灾害、应急、农业、海事等需求，服务于金融、国防与公共事业[5]。

在去年七月的河南暴雨中，河南省自然资源卫星应用技术中心就调用了国内外SAR卫星数据，以分析洪涝淹没区、城市道路淹没情况等。[6]

SAR卫星的商业应用，同样受到数据处理的限制。SAR卫星的典型工作模式为“条带成像”，即随着卫星在轨道上的移动，雷达以相对匀速扫描地面，连续采集雷达反射图像，然后经历漫长的原始数据回传，才能拼接出最终的遥感信息。

对于如何更好地挖掘卫星数据价值，并应用于各类商业场景中，一个容易理解的解决方法，是在卫星上压缩数据甚至筛选数据，只回传最重要的信息。

而这个方法必然要基于运算，就像在手机上，我们为了处理照片，给手机塞进了几颗ISP、NPU等芯片、一系列场景识别与图像处理算法。但在卫星上，起码的算力和算法问题，该如何解决？

卫星智能化如何实现？

“星测未来”目前的主要工作之一，就是为这些遥感卫星提供高能效的边缘算力平台与结合场景的应用解决方案，通过在轨压缩、在轨处理等方式升级卫星的数据计算和传输处理能力，从而为金融、应急、地区安全等下游应用市场提供服务。实际上，对遥感信息的智能处理，也分为不同的层次，不仅可以解决数据传输问题，更重要的是提升卫星数据价值与运行效率。

最基础的工作，是在星上压缩数据，以减少回传数据包的尺寸，降低通信带宽压力。

光学卫星图像压缩（长光卫星、星测未来）

初级的智能化，是筛选无效数据，比如去除被云层遮挡的图像，或者在有明确工作任务，比如扫描地面时，舍弃掉拍摄的海洋的部分。这部分工作也可以节省数据流量。

更高级的智能，则是在星上直接完成例如目标识别、跟踪等工作。这也是让卫星数据产生较高商业价值的关键，原本它需要将数据完全回传后在地面完成，而如果在卫星上识别，则可以直接获得有效的切片数据或目标信息，甚至可以针对性地调整卫星星座的工作模式，进一步精确采集局域的重要信息。

SAR卫星识别船只（天仪研究院，星测未来）

SAR卫星舰船监测与水体识别

（天仪研究院、厦门大学、星测未来）

更进一步的是，如果卫星的工作任务中包括识别走私货船等特定目标，智能的卫星甚至可以只向地面实时汇报一个短信息，“某位置出现某物”，与回传图像相比，具备更强的实时性。

可以看出，伴随着智能化水平的提高，卫星数据更贴近商业需求，并且可以补充拓展很多传统遥感流程无法实现的应用场景。

想实现卫星智能化，则需要为卫星引入低成本、高效能比的算力。什么样的芯片以及星上算力平台适合在太空中开展计算工作呢？通常卫星的芯片都是航天专用的产品，往往采用成熟制程，稳定性更高，但在性能、功耗与价格上没有优势。而采用大公司标准化的芯片，成了低成本、大算力的选择，但它却不一定适合在太空环境下工作。

而星测未来正是从这里打开突破口，曹德志向果壳硬科技介绍，CEO仓基荣与COO曹德志是清华工程物理系核电子学实验室毕业的师兄弟，核电子学实验室以往参与过与CERN（欧洲核子中心）的合作，提供了不少辐照环境下的高性能软硬件平台，以完成每秒数百Gb的大通量数据筛选和处理工作，因此团队的专业背景，是对辐射环境下的软硬件计算平台及其应用有着充分的了解。

从2016年起，实验室的本科和研究生们同时发起了一个空间探测项目——“天格计划”，通过采用商业立方卫星平台搭载的空间探测载荷，开展伽马射线暴勘测的星座组网计划。这也启发了创业团队利用立方星开展太空实验的业务，不断加深对空间粒子探测、太空辐照的认知，并将芯片和星上算力平台在充分的地面测试后送至太空在轨验证，帮助星测未来不断迭代可靠性加固的方案设计：包括异构体系的硬件筛选，软件系统的冗余备份，以及通过神经网络架构搜索建立算法的容错设计和校验优化等等。

因此，团队自研多款“星溪”系列星上算力平台，均采用商用级器件（比如FPGA、GPU或ASIC芯片等）替代宇航级器件，降低行业成本，但却具备较高的冗余可靠性特色。

“星溪”自2020年至今已经迭代数次，目前成熟产品星溪02采用了FPGA+GPU的运算方案，能实现20W功耗、20TOPs算力。根据发射计划，本月（2022年2月）星溪02将搭载卫星平台升空并完成在轨部署，实现全流程的工业级器件在轨验证与后续的长时间运行考验。

星溪02产品概念图

据介绍，星测未来的星上智能方案，已经与多家中国头部商业卫星企业达成合作，比如在可见光遥感领域与长光卫星合作，SAR卫星领域则是与天仪研究院合作。通过广泛的产业链的合作，星测未来获得了更多在轨验证、商业场景拓展等关键机会，实现从科研、工程样机走向市场化的过程。

技术服务科研

星测未来的另一项业务——“星测”系列太空实验平台，则是通过搭载科研卫星的载荷形式，开展包括太空辐照测试、空间粒子探测、通用数据采集及处理等产品及服务。

曹德志向果壳硬科技介绍，“星测”平台同样源于他们在空间探测领域的技术积累，其产品优势在于：

第一，较低成本地实现科学载荷研制，较快时间验证新技术 。一颗大型科研卫星通常搭载多个实验载荷组成复杂系统，而许多新技术所带来的系统性风险则需要前期开展关键技术在轨测试。星测太空实验平台则是结合载荷研制能力以及空间辐照测试服务共同完成该项任务，帮助大型科研卫星降低风险。

第二，独立采用小卫星搜集数据，快速推动空间科学研究成果诞生 。一颗大型科研卫星通常需要5~10年的研发周期，而基于低成本、高可靠商用现货的载荷产品与立方星搭载模式，则短至一年即可完成科学目标的观测与数据收集，发表科研的新成果。

第三点，开辟空间科学的新观测模式 ，多星组网实现阵列、接力等科学观测模式，比如面向宇宙瞬变源天体事件的爆发位置观测，比如面向太阳和星云的长时间接力观测等，都将从新的角度打开天文学和宇宙学观测的一扇新的窗。

“星测”平台一方面服务于科学家的科学探索，起到降本、提速与推动科研行业发展的效果，另一方面，也加强星测未来的自身技术验证，使得星测未来始终处于空间探测、卫星数据采集、星载边缘处理等领域的新技术前沿。

曹德志表示，尽管科研卫星服务的市场空间受限于研究经费，大致在数十亿元/年，但对星测未来而言，已经通过“星测”平台业务在行业内打开了局面，树立了品牌，成为公司第一阶段业务的主要现金流来源。

博士怎么经营公司？

我们还很好奇一个问题：星测未来的团队成员主要来自清华大学、斯坦福、中科院等知名高校和研究所，大多在从事产品研发；对于两位创始人和几位核心管理团队成员，这也是他们的第一份工作，他们是如何实现从研究者到企业管理者的切换的？

据介绍，星测未来团队目前人员并不多，大约全职十余人，兼职实习三十人左右，但在公司成立之初，就面临疫情居家、研发生产调试多地分工等情况，由此也开启了远程协作的工作方式。而由于团队的高校背景，星测未来团队从一开始就非常注重文档的留存和信息的流转。“这可能是我们公司一种习惯或者说文化，很多东西如果你想不清楚就写下来，用文档来传达更加完整、体系化。”曹德志这样说。

这与飞书的理念不谋而合。因此，他们在调研了多个办公协作平台后，最终选择用飞书来承载公司进行文档记录和远程会议的平台。因为作为国内办公协作的代表之一，飞书也着重推出过一种开会的方式——“飞阅会”，一种基于飞书文档的阅读+评论的开会方法。

曹德志说，“初创企业最重要的是不失真，人和人之间可以坦诚地交流，把信息升华，把客户需求跟产品快速对接起来，最后达成整个业务的推进”。而在使用飞书文档的过程中，团队也根据公司发展和业务需求开发出了一些适合自己的工作模式，一个是用文档搭建的知识库，另一个则是用多维表格建立的客户管理系统。

对于一家初创公司来说，成熟的CRM或者低代码工具虽好，但不代表能解决业务流程中的核心问题，“首先是想清楚怎么做，然后工具才能发挥应有的作用”，而用简单的表格和文档背后，是把想做的事情、想传达的理念表达清楚，然后才能加速推动初创企业的业务发展。

“通过文档和多维表格的形式，能够把信息从一个地方搬运到另一个地方，飞书提供的这种信息流转的机制，成了我们业务当中很重要的一环。飞书承载的代码和文档，最终都会带到天上去。”曹德志这样总结飞书在具体工作中的作用。

阅读全文

热点内容

去兰州美年大体检中心怎么走发布：2025-07-12 01:51:52 浏览：4

doge一条狗发布：2025-07-12 01:27:23 浏览：665

普京以太坊普京以太坊发布：2025-07-12 01:27:14 浏览：352

fabric区块链共识算法发布：2025-07-12 01:26:31 浏览：590

BTC价格2019年发布：2025-07-12 01:20:30 浏览：722

矿机托管停电发布：2025-07-12 01:08:14 浏览：220

rcs叠加区块链概念股发布：2025-07-12 01:05:38 浏览：58

区块链金融国外发展情况发布：2025-07-12 01:05:35 浏览：905

加拿大区块链专业好的学校发布：2025-07-12 00:53:59 浏览：115

数字货币在银行业怎么应用发布：2025-07-12 00:52:59 浏览：570

tops算力FPGA设计

与tops算力FPGA设计相关的资讯