“做科学研究,不仅要认识世界,更要努力改变世界。”
曹洋在他个人实验室的网站上,将著名物理学家理查德·费曼的名言放在了显眼的位置,以引起每一位访客的注意。“What I cannot create, I do not understand.”这句话通过曹洋的方式提醒自己和其他科研人员,要牢记初心。
20 年前,曹洋坐在中国科学院拥挤的大礼堂里,参加一门名为《生物信息学》的课程。讲课的是被誉为“中国生物信息学研究开拓者”的陈润生院士。在陈润生院士的指导下,曹洋踏入了这个当时甚至还不是一个明确的二级学科的新兴领域。
如今作为四川大学生命科学学院副教授的曹洋,已经在生物信息学领域深耕数年,具体研究方向包括药物分子设计算法与应用、蛋白质设计和三维结构预测以及序列分析与功能预测。
在曹洋看来,科研工作不能仅停留在认识层面,只有研究成果转化为实际应用,真正做到改造世界,这是他做科研的初衷。在未来,他希望在人工智能技术的助力下,药物设计领域能达到“绘制精确图纸”就能“完美建造房子”的水平,让前期准备工作完美落实到实验阶段,提高药物研发的成功率。
近期,2024 年度「第二届生物信息与转化医学大会」圆满结束。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办。来自四川大学生命科学学院的曹洋副教授应邀参会。
借此机会,曹洋副教授与进行了深入交流。以下为对话全文(经编辑):
敲开生物信息的大门曹洋:在我读本科期间,我对物理学产生了浓厚的兴趣,因此我选择了应用物理学中的电子科学技术专业作为我的大方向。随着学习的深入,我进入了中国科学院的生物物理研究所攻读研究生学位。
在 2004 年中科院入学的时候,新生要在各个实验室轮转,然后双向选择确定导师和研究方向。我当时有考虑过选择结构生物学,利用 X 射线衍射方法来解析蛋白质的三维结构;也考虑过神经生物学,研究人类认知是如何形成的。
最后下定决心选择学习生物信息学,是在研究生一年级上了陈润生院士和凌伦奖老师主讲的《生物信息学》课程之后。课堂上讲解了许多令我耳目一新的内容,例如如何将生物学问题转化为数学问题,非常吸引人。我仍然清楚地记得当时上课的场景,研究生院的礼堂座无虚席,人山人海,座无虚席,许多同学甚至只能坐在走道上听课。陈老师的讲课内容对我来说是一个非常有启发性的经历,让我受益匪浅。
那时从事生物信息学研究的蒋太交教授刚好从国外回来组建实验室,我被他有关蛋白结构预测、设计的研究吸引了,因此成为他的第一批学生。
那时候生物信息学还不是一个独立的学科,而是作为生物物理专业的一个分支存在。我入学时选择了生物物理专业,然而到我毕业时,毕业学位证上的专业名称已经变成了生物信息学。
曹洋:影响还是挺大的。因为生物信息学是交叉学科,对数理的要求比较高。特别在早期,很多算法和软件还不成型的时候,需要自己去做开发,理解背后的原理。而我做的生物信息方向和分子模拟非常相关,比如蛋白三维结构预测,需要在结构的基础上分析生物学功能,其中会涉及到计算能量、相互作用、自由能等,如果前期没有数理知识作为基础,后面很多问题理解起来肯定会比较困难。
我也注意到,在生物信息学领域,具有物理学和计算机背景的科研者更倾向于从事方法学研究;而具有生物学背景的科研者则更倾向于研究生物学问题。因此,不同的学科背景对于后续科研方向可能会产生潜在的影响,尽管学科背景并不是绝对的决定因素,只是存在这样的趋势。
曹洋认为,要具备出色的逻辑思维能力和强大的学习能力,能够快速掌握相关学科知识,并且知道如何在研究中应用这些知识。
你会发现,在这个交叉学科里,需要综合应用很多专业的知识来解决具体问题,不可能只学生物、化学等某一学科的知识就足够,而没有谁是能够在大学本科就把各个专业知识都学完。所以从事前沿工作,一定要有开放的心态,有很好的自学能力,才可以跟上整个领域的发展,有进一步的创新突破。这是我这些年感受非常深的一点。
曹洋:我在过去的工作中主要专注于蛋白质三维结构预测的算法和应用。2010年,我所在的蒋太交教授实验室开发的蛋白质结构预测方法在国际蛋白三维结构预测比赛CASP中取得了很好的成绩,进入了前二十名,是国内参赛队伍中表现最出色的。此外,我还对一些生物学问题进行了研究,例如流感病毒的进化突变对生物体的影响。我基于结构建模和分子模拟的方法,研究了流感病毒和细胞受体之间的相互作用。
曹洋:我个人偏向在学术方面进行一些更加自由的探索。在高校的话,可以根据个人兴趣去选择研究课题,但在企业可能没有办法实现。当时恰好有一个机会,就加入了四川大学。
AI 入场药物设计领域后曹洋:我们课题组的研究主要集中在计算机辅助药物设计领域。近年来,我们团队致力于开发生物医药相关的算法和软件,并进行针对具体靶标的药物设计和筛选工作。我们希望通过不断落地计算机设计方法,推动药物研发的历史进程,并为此做出贡献。
曹洋:此前,在蛋白三维结构预测领域有一个非常重要的突破——AlphaFold。在药物设计开发领域,我们也期待能够实现类似的突破。尽管目前出现了一些新的算法和技术,但与生物医药研究的实际需求仍存在较大差距。为此,我们团队开发了一系列的分子模拟计算方法,其中最具代表性的是分子对接CB-Dock系列。
曹洋:这个算法平台的核心优势在于其高效和准确,用户使用门槛低。
首先,它能够准确地识别靶标分子的结合口袋。在这里,我们采用了之前开发的算法CurPocket,该算法基于分子的表面曲率,可以从给定的蛋白质三维结构中提取出可能结合的口袋。这个口袋识别算法与下游计算非常匹配,使整个过程实现了全自动化。
其次,它的分子对接可以利用已知的分子互作信息进行学习。我们开发了一种名为FitDock的算法,它内置在CB-Dock中,可以在预测新分子与已知靶标的结合模式方面具有显著的优势。
此外,我们在CB-Dock的软件开发和维护方面非常专注,致力于使操作软件和分析结果变得更加简单易用。我们的软件主要面向广大生物医学研究人员,旨在减轻他们的学习负担,使他们能够更加专注于研究具体问题。
曹洋:我们这套计算服务器已经发布五年,国内外同行提交了超过 30 万次计算任务,现在每天的使用量都有超过千次,相关论文的引用数量也上千。我发现在一些社交平台都有这款软件使用的视频,是国内外同行的使用体验和推荐。对此我觉得由衷高兴,感到我们的努力对社会是有用的。
曹洋表示,经过五年的发布,我们的计算服务器已经得到了广泛的应用。国内外同行提交的计算任务数量已经超过了30万次,每天的使用量也达到了千次以上。此外,相关论文对我们的软件进行了上千次的引用。令人高兴的是,我们发现在一些社交平台上有国内外同行分享了他们使用我们软件的视频,这是他们对我们软件使用体验和推荐的肯定。这些成果让我们深感自豪,也证明了我们的努力对社会的价值。
这套软件的用户遍布全球各地,我经常收到来自用户的邮件,他们咨询相关问题,也给我们提供改进软件的建议。例如,最近我们的服务器安全证书过期了,我们没有及时更新,因此收到了很多用户的邮件,他们报告遇到了问题,并询问我们是否能够尽快解决。此外,还有一些企业联系我们,申请使用软件的授权。
曹洋:前段时间,有一个斯坦福的用户给我们反馈,他建议可以在计算的过程中研究如何将不同对接算法的结果合并起来,还提到了批量的受体提交模式。因为现在这个软件是一个受体对应一个配体,只能单个提交。这位用户希望可以添加批量化提交的方式,这样他们可以利用该功能进行小规模的横向对比研究。我觉得这是一个非常好的建议,我们需要想办法满足相关研究的实际需求。
曹洋:我们也关注抗体相关的研究,这是生物药里的主要类型。前些年,我们在进行抗体人源化设计的过程中,遇到了一个难题,即业界的各种分析软件无法对手头上的抗体样本进行识别。这激发了我想要自己开发相关算法的念头,于是我们花了一年多的时间,开发了一款名为AbRSA的抗体可变区编号算法,成功解决了我之前遇到的困难。
这款算法对各类抗体或者 BCR 序列有很强的适应性,能够准确地确定 CDR 区域和 FR 区域。在此基础上,我们进一步提出了专门用于抗体的多序列比对算法,可以处理超大规模的抗体/BCR数据测序,从而帮助筛选和设计抗体,并且可以用于个体免疫状态的分析。这些算法的来源都是我们在解决实际问题时的创新思维。
曹洋:软件在发布后吸引了大量用户,包括许多国外知名高校,如美国 FDA 食品药品监督局,以及国内的一些专利公司和从事创新药物开发的公司。目前,在这个领域,国际上能够获得的类似计算工具大约只有三款,而我们的软件是其中之一。
曹洋:从算法角度上讲,它的健壮性更好,能以超快速度处理大规模数据。因为抗体从基因重排到体细胞超突变,其中的多样性非常巨大。若想在不同序列模式上进行准确界定,就需要从算法上做更加精细的优化。
曹洋:在十年前,要想设计完全由人工合成的蛋白质,大家普遍认为这是一项困难的任务。尽管华盛顿大学的David Baker教授已经成功地进行了相关研究,但对于一般实验室团队或者对这类研究不太了解的人来说,设计完全人工合成的蛋白质仍然面临很大的挑战。此外,这类实验的成功率很低,缺乏经验很容易导致失败。
我进入人工蛋白设计领域是在2016年到2017年期间,当时我在美国密歇根大学张阳教授的实验室做访问学者。在那段时间里,我参与了EvoDesign的开发与实践,并进行了几个靶标的设计工作,其中包括EGFR等靶标的结合蛋白设计。通过我的努力,成功地设计出了具有高亲和力的人工蛋白。
在设计出人工蛋白之前,我个人对这个领域还有很多疑问。然而,经过实践后,我发现人工蛋白具有巨大的应用潜力。我相信在不久的将来,人工蛋白将在生物医药研发领域取得重大突破。
曹洋:我感触特别深的是在 2020 年以后,人工智能(AI)技术被广泛应用于蛋白设计领域,这使得整个领域都迎来了蓬勃的发展。我们可以看到,许多创新的设计思路在其中涌现。
不仅仅是像 David Baker 团队这样的先驱,还有很多实验室都取得了长足的进步,比如说科大刘海燕教授的从头设计氨基酸序列算法 ABACUS、SCUBA,计算所卜东波教授的蛋白质序列设计算法 ProDESIGN,北航叶盛教授基于电子密度的设计算法 CUTEDGE 等,都像雨后春笋一样被提出来,并且还有很多成功应用的案例。
同时,我们也看到了很多企业在积极探索这个领域,他们对人工蛋白设计技术表现出了浓厚的兴趣。人工蛋白设计正处在迎来广泛应用的前夜。
以创造性思维做科研曹洋:药物设计算法已经取得了长足的进步,但是距离生物医学的实践需求还有较大的距离。我所期待的药物设计技术,就像盖房子一样,只要满足力学规则,就能使用软件设计出符合想象的结构。然而,目前药物设计领域的技术还远未达到上述理想状态。往往在设计阶段需要尽一切办法来满足指标和要求,但最终实验成功的概率只有千分之一,甚至万分之一。尽管这个领域已经出现了许多成功的分子设计案例,有一些已经完成临床试验甚至上市,但仍然没有达到成熟的阶段。在我看来,目前药物设计领域面临的最大挑战在于我们对分子层面的规律认识不够深入,计算能力不足,这导致结果的准确性不够。
曹洋:我的建议是,要保持一颗努力学习的心。整个领域进步很快,需要的知识专长非常多,几年前的知识可能现在已经落后了,所以要随时保持学习,争取走在前沿,有所突破。同时还希望密切结合应用实践,推动整个领域的发展进步。
总而言之,我们应该时刻保持学习的态度,并且专注于解决这个领域中的重要问题,进行开发和研究。
曹洋:引入这种人工智能系统来辅助药物设计,是近年来最重要的一个突破。虽然早期的工作也使用了一些机器学习的方法,但不像现在这样规模庞大、广泛应用。而且新的AI技术建立在更多的数据基础上,拥有更优秀的模型。相比之前的方法,有了质的飞跃。
但即便现在人工智能制药的概念和相关研究工作这么火热,还是有很多尚未落地,并没有在实际药物研发中产生显著的影响。我们非常希望接下来,无论是实验算法还是理论研究,都能够转化为实际上市的药物,真正推动整个领域从理论到实践的突破。
曹洋:很多研究是试图去解释它背后的原理,但是解释并不代表真正理解。排除所有可能性之后,如果能够创造出预设的结果,才能够称之为真正理解。
这也是为什么我们看到很多研究,在解释逻辑方面头头是道,似乎很让人信服,但一旦应用到生物医学场景,就会遇到很多问题。就以药物设计的工作来说,我们要去创造实际的分子,不能仅停留在解释现象。作为科研工作者,我们不仅要认识世界,更要改造世界,只有这样,我们对世界的认识和理解才能更加深刻。
曹洋:我主要介绍了实验室近期关于抗体/BCR的数据分析和建模方面的工作进展。一方面,我们开发了一种新的多序列比对算法,用于比对BCR或抗体序列,该算法在效率和准确性方面处于业内领先地位。另一方面,我们基于这个算法进行了抗体三维结构预测和成药性分析,内部测试结果显示,与已知的抗体可变区预测方法相比,我们的准确性是最好的。我希望通过这次报告与国内同行分享我们的研究成果,并希望能够收到同行们的建议和意见,以便我们能够进一步改进我们的研究工作。
曹洋:收获挺大的。我注意到现在生物信息领域的研究和医学实践已经紧密联系起来了。有几个印象深刻的报告,比如有通过 BCR 的研究去分析人的健康状态,进行免疫力解码;蛋白设计新方法在蛋白活性和实验成功率方面取得了重大突破;还有基于 AI 算法在毒性毒理代谢、重定位等研究方面的创新。我回去后还要好好消化学习。