产业新闻

【转载】新纪元|华智生物发布我国首个农业领域单细胞大语言模型!

     10月31日,华智生物在第二届农业关键共性技术发展与应用研讨会上发布华智生物单细胞大语言模型—HigenCell。在当今这个科技日新月异的时代,人工智能(AI)与生物信息学的交叉融合已成为推动科技创新和产业升级的重要力量。农业领域从基因测序到精准育种设计,从基因组学到多组学整合,利用AI在生物信息学上的应用正在不断提高人类对生命科学的认知边界。

华智生物首席数据官贾高峰博士发布华智生物单细胞大语言模型—HigenCell

什么是大语言模型? 

     大语言模型(LLM,Large Language Model),也称大型语言模型,是一种旨在理解和生成人类语言的人工智能模型。我们一般说的LLM 通常指包含数百亿(或更多)参数的语言模型,它们在海量的文本数据上进行训练,从而获得对语言深层次的理解。对于AI大模型来说,生成结果的质量如何,取决于灌输了何种质量的数据。HigenCell大语言模型基于华智生物的单细胞测序数据进行训练,具有大数据处理能力、多模态学习能力、泛化能力及多场景应用的优势。

* 模型设计

      从数据处理到模型训练,通过基础的数据收集到数据清洗,进行生成式训练,进而对模型进行微调预训练,从而实现对细胞类型注释。 

HigenCell模型有什么用?

      通过学习不同物种之间、组织之间的细胞模式,HigenCell可以实现跨物种端到端的细胞注释任务,实现细胞智能分类、跨物种细胞注释、基因功能调控网络、品种抗逆、组织器官发育、功能基因解析等应用场景,为单细胞分析注入新的活力。

* 注释案例

迭代方向

       由于生命体的高度复杂度,因此基于多组学整合的数据量非常庞大,我们目前的开发仍然是有限的,后续HigenCell将进一步开展跨物种细胞注释功能迭代。未来,华智生物将深入更多应用场景,开展对智能育种技术的创新研究与应用开拓,携手合作伙伴,共同为生物育种智能化发展贡献力量。

 

 

来源:华智生物官微

Read 1161 times