知识分享丨自然语言处理在早期新药研发中的应用
随着医药行业的蓬勃发展,人工智能技术有望进一步为医药行业发展中的一些挑战性问题与发展难点提供切实可行的解决方案。而医药行业数据量极其庞大,若将这些数据用于人工智能算法模型训练,然后用于医药研发的流程之中,能够有效加快研发速度,降低研发成本,提高研发成功率。
目前Fast-follow策略愈发普遍,开展中国原创创新药研发势在必行。开展详尽的文献检索、靶点研究以及疾病背景知识调查在新药研发立项之时愈发重要。由领星生物主办的“RWD知识星球-肿瘤精准医学系列分享会”第二期中,高级数据科学家张晓晨就自然语言处理在早期新药研发中的应用展开精彩分享。
NLP技术提取医学概念之间的联系
通过NLP(Nature Language Processing,自然语言处理)技术提取医学概念之间的关系在医学领域中非常有价值。
科学家需要从各种数据库中可用的生物医学文献中提取医学概念之间的相关信息和语义关系,包括蛋白质和蛋白质,基因和蛋白质,药物和药物以及药物和疾病。
完成这个目标首先需要对提取语言的算法模型进行训练,理想的情况下,经由专业人士校准核对过的数据集越丰富越好,这样可以大大提高语义模型的外推性。因此,在完成搭建这样的“机器人”后,NLP技术可以大大提高科研工作者的效率,把他们从重复性的搜索与记录中解放出来,去做更有创造力的研发。
NLP技术快速定义各种参数
讲者通过展示抽提ClinicalTrial.gov 中关键信息的案例,阐述了NLP技术如何在研发立项时,对患者基线,入组条件等参数进行快速定义。
以ClincalTrial中的公共信息为例,已结构化数据包括入组人数、研究目的、试验组/对照组用药信息等,然后其他重要参数,如入组条件,则是以大段描述性文字呈现的。NLP技术则能更好的利用和分类这些信息,并且能自定义地将信息分类,实现段落文本的表格化呈现,尤其是在多种生物标记物相关的临床试验中,实现更清晰的患者筛选与分类。
AI在早期新药研发中的应用展望
会议的最后,互动观众就NLP、以及AI技术在真实世界数据中的应用展开讨论。讲者介绍,现有真实世界中海量的临床检测、诊断治疗、临床评估以及各类分子检测数据是AI技术的理想应用场景,但数据集的治理和完整性还悬而未决。这是因为缺乏由专业医疗知识人员标签化的文字数据,造成训练数据集的稀缺,导致还未能制造一个有较强外推性的“机器人”。然而,我们坚信,在这个数据化、智能化的时代,我们的产业界伙伴与科学家们一定会共同努力实现这一目标。
目前,领星生物“RWD知识星球-肿瘤精准医学系列分享会”已成功举办两期,分别介绍了“精准医疗与真实世界研究的应用探索”和“自然语言处理在早期新药研发中的应用”,获得了与会嘉宾的广泛好评。
领星生物将会持续推出系列分享会,欢迎持续关注!