生命科学の発見に役立つ基盤モデル

生命科学の発見に役立つ生体分子基盤モデル

モデルファースト探索により、反復テストの高速化、停滞したパイプラインの解消、新しい生成および予測機能の活用を可能にします。

ワークロード

構造生物学
分子設計
分子シミュレーション
生物医学画像

産業

ヘルスケアおよびライフ サイエンス
学術/高等教育
HPC/科学計算
農業

事業目標

イノベーション
投資収益率

製品

NIM
BioNeMo
NVIDIA AI Enterprise
MONAI

生体分子 AI モデルのトレーニング

基盤モデルが生命科学の研究や発見を変革しているのは、複数のシーケンス、構造、機能、モダリティにわたるデータから生物学と化学の基盤構造、ルール、関係を直接学習できるためです。 

限定されたタスク向けに構築されている従来の統計モデルとは異なり、これらのモデルは複数の生体分子タスクに汎用的に適用できます。例えば、タンパク質フォールディング、DNA 編集、分子ドッキング、細胞表現型など多岐にわたります。複雑な生物学的特徴を豊かな学習済み表現に符号化することで、データが不足している場合や従来は処理が困難だった領域においても、相互作用の予測、新たな分子の生成、実験の誘導が可能になります。これにより、治療設計、機能ゲノミクス、生体分子工学における新たな可能性が拓かれ、従来時間がかかっていて力業に頼っていたワークフローから、迅速なフィードバック活用型の設計ループへと科学が移行します。つまり、AI は生物学と化学を学習し、次のイノベーションの設計を支援できるようになりました。

構造、機能、設計のためのタンパク質基盤モデル

タンパク質基盤モデルは、言語に対して GPT-4 が果たした役割をタンパク質に対して実現しています。折り畳み、機能、進化のルールを単一の再利用可能なニューラル ネットワークで学習します。

タンパク質基盤モデル (AlphaFold 3、ESM-3、Proteína、Pallatom など、数十億のパラメーターを有するトランスフォーマー) は、折り畳み予測、変異スキャン、ドッキング、De novo 設計の個別のパイプラインを単一のプロンプト可能なエンジンに変えます。 スケール (大量のデータ/パラメーター)、マルチモーダリティ (連続シーケンス、構造、リガンドの埋め込み)、制御可能性 (プロンプトや迅速なファインチューニング) を駆使することで、これらの技術は数週間かかるラボ作業やコーディングを数分の推論へと置き換え、タンパク質研究開発をソフトウェアファーストのワークフローへと変える可能性を秘めています。

次世代基盤モデル (AlphaFold 3、ESM-3、Proteína、Pallatom) は、折り畳み予測、変異体評価、分子ドッキング、オンデマンド タンパク質設計を、単一の AI パイプラインに統合しています。

間もなく、これらのモデルはフォールディングを超えて本格的なファブリケーションに移行し、多鎖複合体、代謝経路、さらには適応バイオマテリアルまでオンデマンドで設計するようになります。希な折り畳みを捕捉する兆単位のトークンのトレーニング セットに向けた継続的なスケーリング、cryo-EM マップ、単一セルの読み出し、反応動力学を統合するより深いクロスモーダル融合、モデルの座標を DNA 構造や細胞フリー発現レシピに直接変換するプラグアンドプレイ アダプター (アクション レイヤー) という 3 つの潮流がその未来を推進すると期待されます。このビジョンを実現するには、共有された高品質の構造的かつ機能的なデータセット、生成精度と安全性を評価するオープンなベンチマーク スイート、コンピューティング効率の高い手法が不可欠です。これにより、ハイパースケーラーだけでなく、ラボやスタートアップ企業が基盤モデルのスピードで反復処理を実行できます。

生命の DNA 設計図としてのゲノム基盤モデル

Evo 2、Nucleotide Transformer、Enformer、Geneformer などのゲノム基盤モデルは、論文から初期段階の製品化へと進んでいます。

これらのモデルは、すでに変異効果予測と単一細胞アノテーションにおいて既にベンチマークを上回っていますが、現在のところゲノム生物学の一部にしか対応していません。これまでの進歩のレシピはシンプルながら強力です。大規模なスケール (数十億の DNA トークン + トランスフォーマー パラメーター)、自己教師あり転移学習 (オミクスデータでの事前トレーニング、その後軽微なファインチューニング)、一部のモデルでは多様なモードの統合 (シーケンス、クロマチン、単一細胞読み出しを 1 つのモデルに統合) を実現しています。オープンなデータセットが増え、GPU 効率の高いトレーニングが改善されるに伴い、これらの「ゲノム基盤モデル」があらゆるライフサイエンス技術スタックの標準レイヤーになることが予想されます。

ゲノム基盤モデル (Evo 2、Nucleotide Transformer、Enformer v2、scGPT) は数十億個の DNA トークンをリアルタイムの変異効果予測、単一細胞アノテーション、CRISPR 対応設計に変換し、ゲノム規模の AI 支援システムと次世代の治療薬発見への道を拓きます。

次に到来するのはゲノム規模の AI コパイロットの時代です。Geneformer や Evo 2 などの研究は、トランスフォーマー モデルが有用な CRISPR 編集、デノボ プロモーター、規制回路を完全にコンピューター シミュレーションで予測できるだけでなく、設計できるという証拠を示しています。HyenaDNA、GenSLM、Longformer-DNA などの新しいアーキテクチャは、コンテキスト ウィンドウを 1 Mbp を超える範囲に拡張し、3D クロマチン ループと長距離遺伝子制御を捕捉できます。最終的には、マルチオミクス データは、メチル化、ATAC-seq、空間 RNA を配列埋め込みに統合し、より深い生物学的洞察を得ること可能になります。これらの進歩により、単一の「ゲノム基盤モデル」API から、リアルタイム臨床変異体トリアージ、高スループット エンハンサーの発見、プログラム可能な細胞治療のような一日で完了する新しい治療設計アプローチを実現できるようになります。その未来を実現するには、プライバシーが保護されたオープンでゲノム データセット、標準化されたゼロショット ベンチマーク、ハイパースケールのラボ外でも兆単位のトークンの事前学習を可能にする次世代コンピューティング インフラストラクチャとソフトウェアが必要です。

小分子基盤モデル

化学基盤モデルは、研究用のデモから創薬の現実的なツールへと発展してきました。

MoLFormer-XL、Uni-Mol 2、MolMIM、GenMol などのモデルは、数億の小分子文字列 (SMILES)、3D 構造、量子化学データを分析して、新薬候補の提案、重要な生化学的特性の秒単位での予測、潜在的な合成経路の提示を可能にします。この進歩を推進しているのは、分子形状を理解する 3D 対応トランスフォーマーと拡散モデル、1 つのモデルで特性予測、結合スコアリング、合成計画を処理できるマルチタスク事前学習、量子力学および分子動力学シミュレーションから得た物理特性を組み込んだシミュレーション拡張学習の 3 つの力です。

MoLFormer-XL、Uni-Mol 2、MolMIM、GenMol などの小分子基盤モデルは、SMILES 文字列、3D 構造、量子化学データを使用して、薬剤候補の生成、ADMET 特性の予測、3D 認識のマルチタスク、シミュレーション拡張トランスフォーマーによる合成経路の提示を実現します。

化学反応、分子シミュレーション、3D 構造データで訓練された大規模グラフ トランスフォーマーは、単一の共有埋め込みから合成の提案、毒性の検出、グリーン触媒の推奨を行うことができます。今後のさらなる発展は次の 3 つの力に依存しています。データやパラメーター規模の継続的な拡大、スペクトルと結晶構造を反応条件と融合させるマルチモーダル事前学習、そして数分でモデルをニッチな足場にリターゲットするプラグイン アダプターの 3 つです。広範なデプロイには、オープンで高品質な反応/特性セット、厳格なベンチマーク、数十億のトークン規模の実行におけるより効率的な GPU スループットの向上が必要です。一旦導入されれば、化学基盤モデルはリード最適化時間の短縮、ラボにおける廃棄物の削減、医薬化学ワークフローにおける予測合成のルーチン化を実現します。

このユース ケースを構築する

NVIDIA NIM マイクロサービスを試して、強力な AI モデルの迅速かつ簡単なデプロイを実現しましょう。

関連するユース ケース