浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

6,796 0 2000

编辑 | X

大型语言模型 (LLM) 已成为增强自然语言理解的变革力量，代表着通用人工智能的重大进步。LLM 的应用超越了传统的语言界限，涵盖了科学领域各学科中开发的专业语言系统。这也导致了科学 LLM 的出现。

作为科学人工智能（AI for Science）领域的一个新兴领域，科学 LLM 值得全面探索。然而，目前缺乏系统的、最新的调查来介绍它们。

近日，来自浙江大学的研究团队，系统地描述了「科学语言」的概念，同时对科学 LLM 的最新进展进行了全面回顾。鉴于科学学科领域广阔，该分析重点关注生物和化学领域。这包括对 LLM 的文本知识、小分子、大分子蛋白质、基因组序列及其组合进行深入检查，并根据模型架构、功能、数据集和评估对其进行分析。

最后，研究人员批判性地审视当前的挑战，并指出有希望的研究方向以及 LLM 的进步。全面概述该领域的技术发展，本次调查将成为研究人员在科学 LLM 错综复杂的领域中探索的宝贵资源。

论文一作表示：「我们关于科学大语言模型的 75 页调查，特别关注生物和化学领域。我们总结了文本、分子、蛋白质和基因组 LLM 的最新进展，更有趣的是，它们的比对。」

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

该综述以「Scientific Large Language Models: A Survey on Biological & Chemical Domains」为题，于 2024 年 1 月 26 日发布在预印平台 arXiv 上。

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

论文链接：https://arxiv.org/abs/2401.14656

目前，LLM 是处理自然语言和收集世界知识的尖端工具。LLM 的卓越表现激发了其在当今时代演变成通用人工智能（AGI）的希望。

除了自然语言之外，为了封装更专业的科学知识，还开发了各种科学语言，如图 1 所示。

这包括科学研究领域的文本表达、定义数学公式的数学语言、表示分子结构的化学语言（例如 SMILES），以及描述蛋白质或基因组并详细描述生物体复杂构成的生物学语言。这些科学语言有其独特的词汇，其中每个术语都具有与自然语言完全不同的特定含义。

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

图 1：说明一般 LLM 难以有效处理科学语言，例如本例中的分子、RNA 和氨基酸序列。(来源：论文）

为了促进对科学语言的理解，研究人员设计了针对各个科学领域和学科定制的科学大语言模型 (Sci-LLM)。作为人工智能科学研究中的一个新兴领域，许多科学 LLM 已经提出了修改后的架构、学习方法、训练语料库以及评估基准和标准。

尽管取得了显著的成就，但这些模型大多是在各自的研究领域内进行探索的。目前还缺乏一个全面的综述来统一这些语言建模的进展。

专注于生物和化学领域的 LLM

在本次调查中，研究人员通过系统地回顾科学 LLM 的技术进步并密切参考普通 LLM 来填补这一空白。研究重点放在生物和化学语言上。具体来说，涵盖了分子语言、蛋白质语言和基因组语言。

除了这些专门的科学语言之外，以自然语言撰写的教科书、专利和研究论文中蕴含的大量科学知识。因此，探索侧重于科学知识的文本 LLM，更重要的是，涵盖各种类型的科学语言的多模态 LLM。

在深入研究每种语言系统时，首先回顾 LLM 架构并将其分为三类：仅编码器、仅解码器和编码器-解码器。然后报告了模型功能，并总结 Sci-LLM 可以执行的典型下游任务。在模型训练和评估方面，研究收集了一堆常用的训练语料和评估基准。最后，研究人员提出了科学语言建模的判别性和生成性任务的适当标准。

这项调查仅限于特定范围内。首先，关注科学语言，特别是化学和生物语言。其次，在讨论文本 LLM 时，重点仍然是用自然语言表达的化学和生物领域知识。第三，技术探索主要局限于基于 Transformer 的语言模型。

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

图 2：本次调查中 Sci-LLM 的研究范围。专注于生物化学科学领域内的科学语言（即文本、分子、蛋白质和基因组语言）及其组合（即多模态语言）。（来源：论文）

这项调查的独特界限使其有别于其他对 LLM 以及分子、蛋白质和基因组计算模型的评论。与主要以自然语言为中心的语言相比，研究重点更倾向于科学语言。与仅关注分子、蛋白质或基因组数据的调查不同，目标是为化学和生物研究提供语言模型的全面视图。此外，深入研究多模态 LLM，探索文本和分子/蛋白质/基因组语言之间的相互作用。

该调查的贡献可总结如下：

对科学领域内的语言建模进行全面回顾，涵盖文本、分子、蛋白质和基因组语言，强调特定领域的知识。
提供了现有 Sci-LLM 的详细摘要，涵盖模型架构、功能、训练数据、评估基准和评估标准。还在图 3 中展示了 Sci-LLM 的进化树。
列举了 sci-LLM 的可用资源，在 https://github.com/HICAI-ZJU/Scientific-LLM-Survey 开源并维护相关材料，从而为该领域的新手提供便利。
本次调查首次全面概述了多模态科学 LLM 的设计，旨在探索各种科学语言之间的相互作用。

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

图 3：Sci-LLM 的进化树，由与本次调查的研究范围相对应的五个主要分支组成。（来源：论文）

最后，研究人员讨论了 Sci-LLM 的研究挑战和未来探索的潜在途径。鉴于生成式 LLM 在科学应用中的巨大优势和日益突出的地位，讨论主要集中在这些生成式 Sci-LLM 上。这种有针对性的方法使我们能够彻底研究生成模型在推进 Sci-LLM 领域所提供的独特方面和可能性。

四个关键挑战

尽管之前的研究在 Sci-LLM 领域取得了显著的进步，但重要的是要承认这一研究领域仍处于起步阶段。在准备这项调查的过程中，研究人员对现有研究进行了彻底检查，并确定了一些尚未解决的关键挑战。这些挑战凸显了 Sci-LLM 研究的不断发展性质，并强调了在该领域继续探索的必要性。

1. 训练数据：数据是人工智能模型开发的基础。在探索 Sci-LLM 时，关注影响其发展和有效性的关键因素。包括：预训练数据集的规模、微调数据集的质量、缺乏跨模态数据集。

2. 架构和学习目标：虽然大多数 LLM 依靠基于 Transformer 的架构来学习语言中的语义相关性，但这种方法可能不太适合 Sci-LLM。这种不匹配有几个原因：处理较长的序列、纳入 3D 结构信息、自回归学习目标的局限性。

3. 模型评估：LLM 的有效评估仍然是研究重点的关键领域。然而，Sci-LLM 的独特性质需要采用量身定制的评估方法。

4. 道德：Sci-LLM 的开发和应用中的伦理考虑是多方面且至关重要的。首先，数据隐私和同意至关重要。其次，存在滥用信息的风险。最后，确保公平获得 Sci-LLM 的好处，防止科学研究和医疗保健领域现有不平等现象加剧，是道德上的当务之急。

七个未来发展方向

为了推动人工智能驱动的科学发现领域的发展，提出了未来探索的七个有前景的研究方向。

构建更大规模、高质量、跨模态的训练数据集。
将 3D 立体信息纳入科学语言系统。
Sci-LLM 与外部知识资源的结合。
Sci-LLM 与物理仿真交互。
使用专业工具和代理增强 Sci-LLM。
计算评估指标和基准的制定。
与人类伦理超级一致。

研究人员表示：我们的目标是为人工智能和基础科学界提供全面而有见地的资源，促进合作并推动「人工智能促进科学」研究议程。通过有效地对科学语言进行建模，LLM 为实现通用人工智能铺平了一条更稳定的道路。

GitHub 地址：https://github.com/HICAI-ZJU/Scientific-LLM-Survey

# AI行业动态

文章版权归作者所有，未经允许请勿转载。

关注公众号，免费获取chatgpt账号

72岁法国概率论大佬获阿贝尔奖，陶哲轩：他的知名度理应更高

ainavi

4,696 3200

摩根士丹利：NAND价格已触底部分客户已接受30%-35%价格上涨

ainavi

10,256 800

英国AI芯片制造商Graphcore：未收到软银收购提议

ainavi

10,292 2400

腾讯张立军：游戏已成为推动芯片、AI等技术发展的强大驱动力

ainavi

9,580 400

70 亿参数训练，从DNA、RNA、蛋白质到全基因组，生物学通用大模型新标杆

ainavi

5,636 1600

华人团队为RLHF设计新算法节省约50%内存

ainavi

8,448 4000

暂无评论

暂无评论...

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

专注于生物和化学领域的 LLM

大的要来了：谷歌Bard被曝将更名为Gemini，Ultra 1.0更强但收费、安卓App也会来

AI拜年火了，通义千问上线一张照片生成拜年视频

相关文章

暂无评论

相关文章

热门标签

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

专注于生物和化学领域的 LLM

大的要来了：谷歌Bard被曝将更名为Gemini，Ultra 1.0更强但收费、安卓App也会来

AI拜年火了，通义千问上线一张照片生成拜年视频

相关文章

暂无评论

相关文章

热门标签

广告位