知图生物:旨在构建300亿条合理小分子化合物数据库,以AI驱动新药发现

“未来的药物研发肯定需要AI的参与”,2016年还在厦门大学读博士的陈星强听从导师的建议,朝着“AI+医疗”的方向做了一些早期创业的尝试。

陈星强从理论物理学到生物物理的前沿交叉,专注于计算机辅助药物设计和AI技术研发,求学期间的研究也一直围绕着蛋白质与小分子之间相互以及蛋白质和小分子的化学反应过程的计算模拟展开,工作期间主要投入在AI技术的应用和产品落地上。

早在2013年,陈星强便已埋下从事药物研发事业的种子,并默默努力着。他告诉动脉网,他一直在等待一个合适的契机切入到医药行业,而这个机会在2016年来了。

“我看到AI的风口,就想要进入医疗行业做事情。”2016年10月,陈星强开始了第一次“AI+医疗”领域的创业尝试,成立了厦门市厦之医生物科技有限公司(简称:厦之医),从热门的AI赋能医学影像筛查切入医疗领域,用AI助力医生更加精准地诊断患者肺部影像。

2020年3月,凭借着在AI应用落地上积累的丰富经验,陈星强决定回归自己一直专长且想要从事的领域——计算机辅助药物设计,并成立了浙江知图生物医药科技有限公司(简称:知图生物),致力于应用先进的机器学习算法,为新药发现提供精准高效的解决方案。

对于接连两次创业,动脉网专访了创始人陈星强,从他的口中试着重现知图生物的核心竞争力以及窥见AI赋能新药研发的未来。

构建30亿虚拟化合物数据库,预计年底完成数据清洗重组并扩增十倍

问:“您怎样看待AI在这个行业的应用情况?”

“首先,我们必须明确AI相对于传统的计算机软件区别和联系在哪里。传统的软件,更多的是构建在图灵机上的功能聚合体,希望借助CPU的密集计算,帮助我们提高日常工作效率。而AI输出的是一种能力,并非具体功能。如果你仔细甄别,会发现软件的功能实现是确定的,而AI的‘能力’是变化且发展的;软件功能的应用是对应到具体的工作流程当中,而能力是解决一类问题的核心特质,要求更高。AI的能力需要达到人类专家的水准,才能进入生产环节进行商业化设计,这对计算机来说是一种新的要求,不仅仅是实现一些功能的聚合体。

同时,当我们看到AI和传统软件的区别之处,我们也需要看到它们的关联之处,任何软件也好,AI系统也好,脱离不了解决问题的场景,在一个场景中,单独有功能是不够的,单独有能力也是不够的,我们既要功能也要能力,这就是当前AI从业者和软件开发者面临的共同问题,如何定义好各自的职能属性,并且发挥出整合的优势。

医药行业的AI输出的这种能力,必须要达到专家的水平,必须经受来自CFDA、FDA等医疗机构从业者和专家检验和认可,这样才能做到临床应用级别的AI。在这一切的背后,AI需要构建自己对行业问题的模型,这需要足够的数据支持和对行业的深度认知。

数据始终是AI驱动的第一步,这个问题无法回避。面对真实世界的零零总总的问题,大量可以参考和标定的数据在产生着,也在消逝着。

如果重新提大数据的概念,我认为需要做到两方面:一方面,是我们所能获取的有相当价值的数据都是有成本的,随着计算机技术和行业的深入发展,云计算和大数据开发工具成本这逐渐降低,大数据成为企业重新考虑出路和发展的一个选项;另一方面,人们对数据产生价值这件事的认可和数据分析能力边界的认知也在不断更新。

在这个角度下看,大数据或许才刚开始,因为没有AI这个工具的升级换代,挖掘大数据和应用大数据不过是纸上谈兵。所以,合理的应用和生产以及存储大数据是每一家致力于数据驱动的公司所必须考虑和实践的任务,AI行业的公司尤甚。我们不可能离开行业去探寻数据,更不可能离开行业数据去找行业解决方案,也不可能凭空创造出有价值的工具。”

问:“您能具体谈谈知图生物在医药研发行业数据方面是如何应用和生产以及存储的吗?”

“知图生物在数据这一点上,具有两个核心战略支撑点,一个要靠走出去,一个要靠自力更生。

走出去,是说 我们公司的数据构建过程不能脱离行业痛点,脱离行业问题,我们必须找准行业现存的主要矛盾,通过认识这些矛盾的存在,确立我们需要收集和存储的数据;自力更生,一方面是说我们要靠自己,但也不全是这个主观感情层面上的努力,而是我们需要通过AI技术,来生产和优化数据。

基于以上两点的思路,我们清楚地看到,在制药行业,靶点和先导化合物的关系确认是一件非常值得尝试和需要深入解决的难题。我们作为AI行业的从业者,首先是要优化掉旧有的流程,提高解决问题的效率,突出创新和变革。”

问:“长远看来,您公司希望自己能够怎样去应用医药行业的大数据?”

“知图生物希望结合当下研究产生的各类组学数据,包含基因组学、表观遗传组、转录组学、蛋白组学、细胞组学等,分别针对相应疾病提供病理机制的研究和潜在靶点的发现,并以靶点为核心的构建数据采集流程,构建相应的先导化合物库,并应用深度学习算法搜索推荐出合适的候选化合物。

公司长远目标是将组学数据能够结合体外实验数据、临床阶段实验数据进行综合分析和算法应用,并对数据进行分类,建立相关靶点的一系列从头算(ab initio database)数据库,最后将采集到的数据集应用于机器学习模型,不断进行模型训练和模型优化迭代。”

问:“公司目前的在研核心产品有哪些?”

“目前公司围绕药物靶点和先导化合物,构建了一款名为MolecularFlow的虚拟筛选平台。我们利用的小分子化合物开源数据约30亿条数据,根据已有的15万潜在成药小分子进行新化合物的生成学习和探索,结合图神经网络(GCN)、强化学习(RL)和对抗学习(GAN)去创建新的成药小分子化合物,预计将在今年年底前完成十倍基础数据的扩容,进一步清洗和整理数据,将数据库的有效数据扩展到300亿条,小分子库扩充到更大的化合物空间。”

我们的这款产品在设计之初就考虑到药物研发中的流程与效率问题,相对于现有的一些AI辅助药物设计的CRO企业,我们更多的是基于算法结合软件的系统驱动。一些进行药物大规模筛选的软件,大多数药企只是将其作为一个独立的工具使用,但是知图生物改进了这种传统的工具使用和研发流程衔接,用一套算法系统将其全部集成、优化、承接下来,最终企业关于任何一个‘药’的需求,都可以通过我们的这个系统输出完成。

这就是AI输出能力和软件输出功能非常明显的一个区别。面对已有的一些有效靶点,知图生物会根据客户需求去针对性地多次筛查数据库,在‘筛选’和‘召回’的多次循环,逐次降低目标化合物的数量级,最终获取更加精准的目标小分子化合物范围,整个虚拟筛选的流程我们预期在3~5天左右即可完成。

问:“在AI赋能新药研发的市场里,知图生物为何选择此时进场?”

“国家这几年一直鼓励和支持创新药的研发,行业的需求是明确的,加上最近诸多新的利好政策,我们的市场和机会始终在那里。药企往往看中的是CRO公司的技术实力,需要CRO公司提供一个明确的解决方案和可信的结果。所以,知图生物只有真正将技术的价值做出来给药企看到,我们才能让市场认识到AI的价值和能力。”

问:“知图生物目前与哪些科研机构有建立合作关系,未来会自己做药吗?”

“目前知图生物正在和厦门大学实验室、药学院以及深圳先进研究院展开合作,公司也正在积极寻求一些新的合作可能。知图生物的定位是做一家AI赋能新药发现的CRO企业,未来无论从战略上还是公司发展上,这一点始终都不会改变。我们首先要做好CRO公司这一角色,去和好的药企做好的合作,让市场充分认识我们的前提下,再沉淀下来考虑去独立做原研药,这样的发展路径会更加合理稳妥。”

问:“最后能谈谈您对公司下一步发展的一些期待和愿景吗?”

“知图生物已经有三个方向的雏形产品,涉及先导化合物库的扩建,虚拟筛选加速,疫苗设计等方向。目前正在进行首个产品MolecularFlow的初步验证,具体产品细节我们还未公开。从知图生物成立到现在,刚好三个月有余,我们完成了首个项目的30%,预期在今年10月完成整个数据库后台的搭建工作。公司也开始启动pre-A轮融资,计划募集资金1000万人民币左右,主要用于数据库扩容、验证以及流程优化,人才招募等工作。”

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
雄关漫道真如铁,而今迈步从头越
(0)

相关推荐