龙加智:硅谷工程师的AI芯片突围 | 甲子光年
撰文:小青狐 编辑:火柴Q
设计:孙佳栋 微信公众号:甲子光年(ID:jazzyear)
本篇系「甲子光年 | 塑造者」No.24
2018年,AI的大主题是“行业落地”,AI的多元场景呼唤更加专精的硬件,一股“AI芯片”创业浪潮兴起,涌现了寒武纪、地平线、深鉴、耐能、比特大陆等明星创业公司。传统上非芯片领域的科技巨头如Google、百度、阿里也纷纷布局AI芯片。
根据腾讯研究院发布的《中美两国人工智能产业发展全面解读》,2017 年美国已有33家芯片新创公司,中国有14家。这在多年来都是“巨头游乐场”的芯片行业是一个惊人的数字。
今天「甲子光年」的公司案例分析,聚焦一家2017年6月成立于硅谷,尚未在公开报道中亮相过的AI芯片公司“龙加智”( DinoPlusAI),它有两大特点:一是定义了特定需求下的芯片新类型——“关键任务芯片”;二是团队突出的工程能力——汇聚了15位在硅谷有多年一线工程经验的芯片工程师。
龙加智天使轮投资机构翊翎资本董事长王斌评价:“是否有足够成熟、稳定的工程经验,是判断一个芯片项目的核心。所以我们选择了龙加智。”
新物种:“关键任务”AI芯片
2017年3月,浦东张江。龙加智的创始人胡遇杰定好了目标:如果三个月内招到满意的芯片工程师,就把公司芯片研发团队定在上海。
17年前,在上海交通大学念完自动化控制硕士的胡遇杰进入中兴上海第二研究所工作。2003年2月,交大微电子学院院长陈进教授发布了中国第一个完全拥有自主知识产权的DSP芯片(数字信号微处理器)——汉芯一号。
这直接激发了胡遇杰对芯片的兴趣,他由此知道,原来国内一直没有自主研发芯片的核心能力,技术比国外落后三十年,他申请了美国半导体方向的博士,立志要学一身本领。
2006年,已在美国爱立信成为一名芯片设计工程师的胡遇杰震惊得知,曾让国人备受鼓舞的“汉芯一号”,是陈进将摩托罗拉的芯片用砂纸磨去logo,骗取上亿经费的造假事件。
扼腕之余,胡遇杰更加扎实地投入到一线的工程工作中,从2005到2016年,他先后在爱立信、博通、Cadence工作,分别从事数据中心多核网络处理器芯片、数据中心硬件流水线交换机芯片、DSP内核的核心研发。
他在爱立信参与开发的芯片广泛应用在爱立信边界路由器上,被美国通讯公司AT&T大量采用;他在博通参与开发的Trident/Tomahawk系列芯片占据了全球数据中心交换芯片80%以上的市场份额;他在Cadence参与开发的Tensilica DSP内核是全球最流行最灵活的DSP内核,被微软等公司集成到高性能、低功耗的芯片产品中。
这三种芯片各有技术侧重:“多核网络处理器”包含几百颗CPU内核,CPU核和硬件引擎通过片上网络连接,架构复杂又具有灵活性;“数据中心硬件流水线网络处理器”强调高速、高密度和低时延;而“DSP内核”要求性能和拓展性的同时极度重视功耗和面积。
2015-2016年,人工智能和无人驾驶渐渐兴起。胡遇杰注意到,有客户把他们的DSP应用在无人驾驶场景。
顺着这种应用思路深究,这一轮AI芯片的开发竞赛,一个明显趋势是AI应用场景的多元化要求硬件也更加“专精”化——需求倒逼芯片,芯片最终要为场景服务,而不再是通用架构垄断一切,这是目前AI芯片产生新商业机会的底层逻辑。
但现有的解决方案中,不管是被英伟达把持的GPU还是各家创业公司发力的ASIC(专用集成电路,AI芯片中的ASIC指专门对AI算法进行优化的AISC),都忽视或无法满足一些关键场景下的需求。
第一,是对低时延和低“时延抖动”(单次请求的时延波动值)的需求。目前AI芯片普遍有几毫秒的延迟。在一些场景下,延迟可能会造成重大的问题。在自动驾驶中,几毫秒的延时反应可能造成车毁人亡;在同声传译中,时延和时延抖动将极大影响体验。
第二,对高可靠性的需求。目前对宕机情况下的数据保护,一般用软件方案来解决;然而,软件方案速度慢,数据有丢失、出错的风险。
第三,对数据安全的需求。多个虚拟机之间的隔离,目前也是用软件方案解决,有数据泄露的风险。
胡遇杰把以上需求定义为关键任务:相比其他情况,以上问题造成的后果极为严重,因此需要更强大的保障,这就呼唤一种新的芯片类型——低时延、高可靠的“关键任务芯片”(Mission-Critical AI Processor)。龙加智的第一代“关键任务芯片”被命名为“Dino-TPU”,将最先应用于云端的数据中心场景。
胡遇杰的设计思路和云脑科技创始人张本宇的需求不谋而合。
张本宇有19年人工智能和大数据研发经验,先后就职于微软亚研院、Google和Facebook。2015年,张本宇创立了云脑科技,为行业用户提供AI技术平台。云脑科技的业务目前主要覆盖通信、金融监管、人才教育和能源制造四个领域,其合作伙伴包括中国银联、上海证券交易所、浪潮软件集团、中国电信、中海油等。
张本宇告诉「甲子光年」,云脑科技深耕的金融领域对实时性要求特别高,目前的主流GPU更适合做批量处理任务,但并没有对单个请求的延时性做优化,所以在做推理任务时,单个请求的延时性较长且“时延抖动”大,这不利于金融监管场景下及时作出阻断和预警。
“未来,我们要做到把现在使用GPU的场景全部替换成龙加智的TPU,云脑会联合龙加智为合作伙伴提供软硬结合的整体方案,同时我们也可以携手拓展更多场景。”张本宇说。
一线工程师组团突围
从上海出发,又想回到上海创业的胡遇杰最终未能如愿。因为他发现,在上海无法完成自己的最初设想——“招到满意的芯片工程师”。
胡遇杰对“满意的工程师”的定义是:至少有一个大芯片从头到尾的设计经验,有一次性流片成功的经验。但这样的人在国内太难找了。
知乎上,一位名叫“Yufeng Bai”的IC设计工程师说道:“在数字逻辑设计能力方面,国内公司和国外公司差别不大,国外能做的国内公司一样能做。而最大的区别在于经验,犯错的经验。能用和做好是不一样的。”
胡遇杰告诉「甲子光年」,在硅谷,芯片设计采用 “师徒制”。 师父手把手带徒弟,几十年代代传承,积累了大量芯片制造的工程师智慧。这也是美国芯片行业相比中国的一大优势所在:大量经验丰富、从业年限较长的一线工程师,能把芯片复杂的设计、实现、验证和调试过程落到实处。
胡遇杰最终无功而返,并于6月在硅谷重新组建团队,创立了现在的龙加智。目前,除有丰富芯片设计经验的胡遇杰本人外,龙加智还汇聚了15位在硅谷有15年以上经验的芯片工程师,成立一年来,无一人离职。
团队中有毕业于卡耐基梅隆大学,有20多年网络处理器芯片设计经验、拥有11项专利的Ken Chin。他曾帮助TeraBlaze公司设计一款芯片,该公司后被杰尔系统收购。
同样拥有11项专利的Cliff Gold是宽带互联网软件提供商2Wire的ASIC技术总监,管理过70多人的芯片设计团队。
前同事王晓松则是博通的高级主任芯片设计工程师,参与博通旗舰产品Trident/Tomhark 的设计,对datapath延迟和性能进行优化。
龙加智的天使轮投资机构为挚信资本和翊翎资本。翊翎资本董事长王斌告诉「甲子光年」,“是否有足够成熟、稳定的工程经验,是我们判断一个芯片项目的核心。”
翊翎资本已布局了人工智能领域的数据、算力、算法、应用、平台、安全等相对完整的产业链,投资了十几家公司,如云脑科技、聚合数据、泰迪熊智能等。
王斌说,龙加智有两大核心价值最打动他:一是“关键任务芯片”的设计思路,且团队已对核心技术提交专利申请;通过对自己所投AI公司的需求的了解,翊翎资本确认了“关键任务”的必要性——如工业等重要场景下,不仅追求算力、功耗,也对稳定性和低时延有很高要求。
第二就是团队强大的工程能力,“他们很接地气,都是一线工程师出身,有成熟经验。我们判断,龙加智的落地性会更好。”王斌认为,对龙加智来说,做AI芯片不是摸索前行,而是把多年积累的经验成果输出。
目前,龙加智已启动新一轮融资,同时接触国内外的投资者。王斌在沟通中发现,国内外投资机构判断一个芯片团队是否有能力的时间点不太一样。
他告诉「甲子光年」,国内很多机构会把AI芯片团队是否流片成功当做一个重要时间点,流片成功了,就敢给高估值;但芯片是需要不断迭代的,流片成功只是证明了基础能力。国外机构则敢于在更早期做判断,判断依据是团队以往的背景及接下来对市场需求的把控。王斌把国内投资者“不敢判断”归结于中国半导体行业工程能力、工程氛围长期落于人后。
“都等流片成功了,那还有早期投资人的机会吗?”王斌表态,翊翎资本将在新一轮融资中继续投资龙加智,“我们很有信心。”
从第一天起就软硬兼备
由于AISC需要针对AI算法做加速和优化,需求→算法→芯片层层传导,一家声称要做AI芯片的公司一定要同时具备硬件和软件两类资深人才。
在胡遇杰的设计思路中,龙加智的“Dino-TPU”还具备二次开发的能力,可以适用多个人工智能场景,这也需要团队内有精通算法能力、软件能力的牛人。
所以胡遇杰创业时,第一个想到的人不是芯片工程师,而是精通算法的吴彤。
吴彤与胡遇杰研究生时同一个学院,住同一层宿舍,在硅谷的十多年来也一直互相照应。吴彤毕业于上海交大试点班,成绩名列前茅;他曾参与亚马逊Echo的早期开发,担任过思科资深技术领导、软件架构师。吴彤成了龙加智的联合创始人和首席软件架构师。
龙加智也邀请了云脑科技创始人张本宇和清华大学电子工程系博士生导师欧智坚担任算法顾问。
张本宇告诉「甲子光年」,他现在会定期和龙加智方面交流,分享算法的前沿发展,及其对芯片设计的机会和挑战。不同场景的不同算法,对芯片的性能侧重有差异化要求,有的场景看中低时延,有的场景则看中高稳定性。
在具体的研发设计过程中,龙加智采取了“软硬件并行开发”的工程安排。即在ASIC流片前的硬件设计、验证阶段,同时用可重复烧录的FPGA做软件系统的开发平台。这其中的关键是做好软件和硬件的任务分解,清晰知道哪些任务划给软件,哪些划给硬件。长期的芯片工程经验让团队能快速、清楚地做出拆分判断。
在开发生态层面,龙加智的Dino-TPU提前考虑了兼容性。Dino-TPU同时支持TensorFlow和Caffe两大主流开源框架。用户也可以使用龙加智自己的SDK(软件开发工具包)来开发芯片应用。
创始人的芯片工程师硬件背景,加联合创始人的软件背景,龙加智成立之初就是一家软硬兼备的AI芯片公司。
“龙加智未来将有很多可延展性。”翊翎资本王斌评价。
快节奏背后的工程力量
组建好团队的龙加智迅速出发,用吴彤的话说是“节奏很快”。
团队的沟通方式扁平、公开,每个人都会坦诚自己的看法,不一致的地方就一起讨论和沙盘推演,他们很快定义出了实现“关键任务芯片”低时延、高可靠的技术路线——
高可靠,是通过冗余设计,实现纳秒级错误检测和错误恢复能力,保障芯片不宕机,数据不丢失,并以硬件加软件的解决方案,来支持虚拟化后用户之间的隔离;低时延则是通过片上大量内存的架构,提供很高的memory带宽。
龙加智开发的第一款架构完美达到了胡遇杰的设想:
主要AI芯片性能、时延、冗余设计与Dino-TPU的对比
根据测算,“Dino-TPU”算力超过了除最新款Volta之外的所有GPU;时延仅为英伟达Volta V100的十分之一;功耗仅为75W,且可根据实际需求用软件调节;而冗余备份和数据安全保障,是市场上的AI芯片中独有的。
目前,团队已提交了8项专利申请,保护核心技术,接下来将和业内企业合作推动关键任务芯片的行业标准,这将进一步给公司带来专利收益。
值得注意的另一个情况是,按照龙加智的开发计划,他们将在2018年底完成第一款ASIC的流片。这意味着从设计到流片才一年半时间,是一个超过行业一般情况的数字,快到让人怀疑。
“我在中国融资的时候,说流片100%成功,他们觉得我在吹牛。后来我就说99%、97%可以成功。”胡遇杰说,质疑是因为大多数行外人不理解工程经验的力量。
他告诉「甲子光年」,快是因为两个工程安排,一是上文提到过的“软硬件并行开发”,这能缩短设计周期;二是“模块化开发”。
模块化开发能最大程度确保“一次性正确”。经验丰富的工程师,在设计时,脑中就会考虑这个架构是否容易被验证,会预判corner case(边角案例,指特殊情况)和哪里可能出错。
把任务拆解为简洁、明了、可靠、可复用的小模块,就是掌控corner case、清楚知道“边界”的方法之一。模块化设计将缩短验证时间。有的团队在设计时经验不足,导致验证环节依赖大量随机测试,不停冒出bug,这才把周期拉长。
“所以为什么别人问我流片要几次?我说肯定只有一次。如果一个架构师做的东西要流两次片,那他以后找工作就难了,更别说流三次。”胡遇杰说。
未来的征途是行业落地
今年4月,龙加智Dino-TPU已完成demo测试,进入为流片做准备的环节。到目前为止,开发计划未出现延迟。
接下来公司发展的三件大事是:流片、新一轮融资和组建国内团队。
龙加智团队将按部就班地走完开发流程,按计划流片。
组建国内团队则关系着未来的商业化。中国有庞大的AI市场空间,且正处于各产业科技升级的大浪潮中。
王斌指出,在FPGA已经开发完毕,流片之前的阶段,龙加智团队需要进一步做“产业链磨合”,补充、加强和目标客户做沟通的能力及团队,然后根据需求对设计进行相应微调。在这个过程中,云脑科技等公司可以和龙加智开展深度合作,产生协同效应。
从整个AI芯片创业赛道来看,先入场的玩家纷纷到了切进应用场景的阶段。如地平线聚焦自动驾驶和安防;深鉴做数据中心和安防,同时发力云端和终端;寒武纪着重发力云端训练;西井科技在芯片之外,开发了港口自动驾驶应用产品,深挖智慧港口服务。AI芯片未来真正的机会和竞争将发生在商业系统层面。
“今年很多公司都会流片,大家会往各个场景里沉。因为场景需求的差异化,AI芯片的未来肯定不是CPU时代的一家独大。”王斌说。
目前,龙加智的“关键任务芯片”已在美国市场激起了一些水花。美国老牌芯片后端服务公司eSilicon,积极帮助龙加智对接美国投资机构,以期后续展开更多合作。eSilicon此前合作过的公司还包括被Intel收购的Nervana等。
“低时延”的特点,也打动了美国网络安全公司FireEye的工程负责人,两家公司已初步对接了后续合作意向。
组建中的国内团队未来将给龙加智的商业化发展带来更多期待。
其实这其中还有一层胡遇杰的“私心”—— 他希望回到中国的龙加智,能够为中国芯片培养出一批真正优秀的工程师,帮助推动行业工程水平的发展、推动对工程的重视。
这不仅是这家名字里带“龙”字的公司的创立初衷之一;也是17年前,去国离乡的那个年轻人的初心。
END.
本文作者小青狐长期关注AI芯片领域,欢迎提供案例线索,交流行业信息。
作者联系方式:yi17611580605
甲子互动
新一轮AI芯片竞赛中,你认为最关键的竞争要素是什么?