第一部分:大分子
1、AI在不同药物领域的研发进展?
(资料图)
AI在早期药物发现的各个领域都有应用,化药因为高质量数据多,用算法做分子生成、药效评估、成药性预测和毒性分析都有应用。AI在化药领域的应用已经很成熟,比较容易实现,但是可以做的创新东西不多。
大分子的AI计算还处在非常早期的阶段,多肽发展稍微快一些,从单体计算到复合物再到多肽/核酸、多肽/蛋白开始做结构设计。但是现在的生物药都是通过序列和物理结构做设计,大分子都有柔性片段和三维空间结构,结构这块的预测和算法发展很慢。多肽现在已经可以做到三四十个氨基酸的大环肽,可以做peptide-ADC和peptide-核药。
蛋白抗体的空间结构更加复杂,抗体的数据都是高度保密的,数据的真实性问题比较大,很多体内筛出来的抗体流式分析假阳性,实际没有办法和抗原结合,非特异性结合体导致体内脱靶效应很严重。现在大部分公开数据都是没有经过抗原抗体结合验证的,整体数据质量都比较差。
2、药企利用AI技术筛选药物的主要商业模式?
药企和AI公司的合作主要有几种:1)AI公司自己做药物开发,做到PCC或者IND,然后授权;2)大型制药公司自己组建AI部门做算法;3)通过CRO外包的形式把自己的业务外包给AI公司做药物结构优化,按照工时收费。
大型制药企业目前主要通过收购AI公司,或者拿到AI公司的算法授权,用企业内部数据训练模型的方式生成药物分子,不会与AI企业共享数据。但是能够开发的药物领域非常多,跨国药企也很难在每个细分领域做到数据上的全球领先,AI公司能够在细分领域做出产品的差异化。
国内真正掌握AIDD的技术人员非常少,都自己出去创业了,从2021年开始全市场都在招人。企业自建AI部门前期投入成本很大,一条管线需要配3-5个人,整套的计算软件的费用也比较高。
找AI公司合作一般会签署排他协议,每个靶点在几年时间内只能给一家客户服务。AI公司会在确定靶点的时候让团队评估公司现有的模型能不能做,或者通过简单的算法迭代能不能实现,然后再决定接手这个项目。
3、AI算法与传统CADD筛选药物分子的区别?
目前大部分的化学药物筛选都是使用的CADD,传统的CADD讲究的是人的研发经验和计算机辅助设计之间的结合;AIDD的思维方式更偏计算机,会筛选出全新的药物骨架。
纯算法公司算法的地位很高,实验团队只是个工具团队做结果验证。但是传统制药企业是以临床导向来设计开发产品。
4、AI数据库和算法的核心竞争力?
药物发现的数据量越多,准确度就越高,需要不断去扩充自己的数据库。公开的文献资料大家都能检索,但是从自然获得的天然序列和功能片段每家都会不一样。
通用的底层算法在网站上都能免费获取,但是基于机器训练学习的优化模块都是需要商业付费的。因为每家底层优化算法的逻辑不一样,AI公司在筛选同一个靶点药物的时候也会生成完全不同的药物分子。
AI公司的算法团队每天会通过网上发表的新文献不断更新和调试自己的模型,某些热度比较高的领域甚至每天都会上线几百篇新的科研文章。由于数据的真实性和重现性问题,训练模型采用的方法非常关键。
5、AI行业近几年的发展变化?
蛋白质分子结构预测,算法和通量都在提升。现在6个氨基酸的已经筛的差不多了,氨基酸的序列数量在不断提升。大分子需要通过酵母、噬菌体或者mRNA展示平台进行结果确认,现在可以做到酵母展示平台同时分析1000条序列。以多肽为例,人工合成几百条的成本已经很低,现在也有在开发多肽的自动化合成仪,通量一直在提升。
自动化设备只能做重复性的工作,对于不稳定的产品需要多次改变参数,不需要通量提到非常高的水平就足够用来训练模型。
ChatGPT现在有尝试用氨基酸序列去训练蛋白质语言。
第二部分:算法
1、AI算法在药物研发当中的应用场景?
早期主要做靶点发现,联合用药机理研究,通过敲出基因降解蛋白研究疾病发生的原因。小分子目前已经发展到给定一个蛋白表面的口袋(与药物结合的位点),就可以用算法生成药物分子,交给药物化学专家再做进一步的结构优化和CMC。大分子这两年进步很快,可以根据靶点生成蛋白,然后交给做实验的部门确认。
AI能够帮助研发人员寻找到亲和力最好的药物分子,但是在实际疾病治疗过程中, 亲和力最好的分子不一定是药效最好的分子,对疾病发生治疗的全面了解,是AI目前无法替代的部分。
2、AI算法底层架构的来源?
有些公司会直接用已经公开发表的算法,有些公司会根据公开算法做进一步优化,有些甚至会盗用其它企业的算法。算法底层的逻辑都差不多,但是在细分抗体结构域的优化方面每家有自己的特点,各家企业会通过自己独有的数据库训练优化,形成各家独有的产品管线。算法的更新迭代腾讯和字节这类公司做得更多。传统大药企的核心在于CMC、临床和商业化,海外的大药企也更倾向从biotech购买新发现的分子。
3、传统大药企和AI制药公司的差异?
传统的大药企也在尝试搭建相关的团队,但是生物学家不懂计算, 生物学家更倾向通过自己的经验去优化分子,有自己的路径依赖,但是比较费钱费时间;算法公司可以直接生成分子,但是算法的底层框架和传统筛选方法不同,不一定能够被生物学家很好的理解。药物研发到了CMC之后的阶段,算法能够提供的帮助就非常有限了,临床试验的时间也是没有办法通过算法缩短的。
4、AI制药目前在国内的发展阶段?
过去几年Google、Amazon、Microsoft在底层算法上取得了非常大的进步, 2017年Transformer模型出现,2020年α fold在此技术上实现了蛋白结构的解析,算法层面实现比较大的突破。数据方面一直是在缓慢积累的,属于缓变量。大分子结合面比较大,这几年进步非常快;小分子在分子动力学方面(小分子和蛋白结合)进展很慢,小分子结合面很小,算法要求非常苛刻,进展缓慢。
2018年设计的分子, 可能刚做到IND阶段,这两三年很关键,能够初步验证第一批筛选出来的分子是否能够成功进入临床实现商业化。以前筛选分子需要耗费上千万的费用, 一年以上的时间;AI算法可能几十万一个月就能完成。分子生成的速度现在很快,根据特定的靶点生成对应的蛋白几周就可以完成,然后通过2-3周的实验验证就可以完成初步的验证。以前传统的药物筛选方式需要建立10^8以上的蛋白库做验证,非常耗时成本也很高。AI在计算的时候就可以直接完成亲和力方面的结构优化,传统筛选方式筛出来的蛋白还需要后续进行结构优化。现在计算已经很快了,但是都需要做实验验证,速度没有办法提得更快,也没有必要在后续实验数据不充分的情况把所有的分子结构都计算完。
5、各AI企业的主要差异?
所有的AI模型都是基于α fold的基础建立的,每家用自己独有的数据库进行训练和微调,方法论是通用的,只是大家选的研究方向不一样,国外开源的数据库很多。理论上国内的CRO公司是不能采用客户的数据进行模型训练的,需要得到客户的授权,并且客户的数据也不够完整。
本文转载自“价投帮”公众号;财经编辑:陈雯芳。