coticoger 님의 블로그

[논문 리뷰] Predicting Cellular Responses to Novel Drug Perturbations at a Single-Cell Resolution

coticoger — Mon, 4 May 2026 20:37:17 +0900

https://proceedings.neurips.cc/paper_files/paper/2022/file/aa933b5abc1be30baece1d230ec575a7-Paper-Conference.pdf

Introduction

최근 single-cell RNA-seq은 약물 처리가 세포 하나하나의 유전자 발현을 어떻게 바꾸는지 볼 수 있게 만들었다. 이 덕분에 기존 bulk 실험에서 놓치기 쉬웠던 세포 간 이질성과 미세한 반응 차이를 포착할 수 있었다. 하지만 비용과 규모의 문제가 존재한다. single-cell HTS는 정밀하지만 수천 개 약물을 실험하기에는 너무 비싸고, 실제 데이터셋도 대부분 수백 개 이하의 약물만 포함한다.

그래서 모든 약물을 single cell로 직접 실험할 수 없다면, 모델이 관측하지 않은 perturbation을 예측해야 한다고 주장한다. 특히 중요한 목표는 학습 중 보지 못한 새로운 약물의 반응을 예측하는 것으로 이는 drug repurposing이나 후보 약물 발굴에 직접적으로 연결되지만, 현재 single-cell 데이터만으로는 다양한 화학 구조와 세포 맥락을 충분히 학습하기 어렵다.

chemCPA는 이러한 한계를 해결하기 위해 제안되었으며, 기존 CPA처럼 세포의 basal state, drug effect, covariate effect를 latent space에서 조합하되, 약물을 단순 ID embedding으로 보지 않고 molecular structure에서 drug embedding을 만든다. 그래서 학습 데이터에 없던 약물이라도 분자 구조 정보가 있으면 perturbation effect를 예측할 수 있다.

https://velog.io/@coticoger/%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-Compositional-perturbation-autoencoder-for-single-cell-response-modeling

[논문 리뷰] Compositional perturbation autoencoder for single-cell response modeling

perturbation이 세포의 유전자 발현에 어떤 영향을 미치는지를 정밀하게 분석하는 것은 실제 실험 환경에서 조합이 매우 다양하므로 불가능하다. 따라서 관측되지 않은 새로운 perturbation조건에서의

velog.io

또한 bulk RNA HTS 데이터를 활용한다. 비록 bulk 데이터는 single cell 해상도는 없지만 훨씬 많은 약물을 포함하므로, 약물 구조와 유전자 발현 변화의 관계를 먼저 배우기에 적합하다. 즉, 제한된 single-cell 데이터를 대규모 bulk perturbation 데이터로 보완해, unseen drug response를 single-cell 수준에서 예측한다.

Chemical Compositional Perturbation Autoencoder

논문은 데이터셋을 다음과 같이 정의한다.

$$\mathcal{D} = \{(x_i,y_i)\}^N_{i=1} = \{(x_i,(d_i,s_i,c_i))\}^N_{i=1}$$

$x_i$ : $n$차원의 gene expression
$y_i$ : 속성 집합
$d_i$ : 약물에 대한 정보
$s_i$ : 약물의 용량에 대한 정보
$c_i$ : cell line에 대한 정보

chemCPA가 풀고 싶은 문제는 단순한 reconstruction이 아니라 관측하지 않은 조건의 유전자 발현을 예측하는 것이다. 더 나아가 chemCPA는 학습 중 아예 등장하지 않은 새로운 약물에 대해서도, 그 약물의 분자 구조를 이용해 세포 반응을 예측하려 한다. 이런 예측을 논문에서는 counterfactual prediction이라고 부른다.

이러한 counterfactual prediction을 위한 한 가지 가능한 접근법은, 세포의 gene expression $x_i$을 속성$y_i$과 무관한 latent vector $z_i$(basal state)로 인코딩한다. 즉, basal state 안에는 drug 정보나 cell line 정보가 최대한 없어야 한다. 이러한 basal state가 주어지면 $z_i$는 속성 표현 $z_d$ 및 $z_c$와 결합되어 임의의 속성 조합 $y'_i$를 인코딩할 수 있으며, 이후 새로운 속성 집합이 반영된 유전자 발현 상태 $\hat{x}_i$로 다시 디코딩될 수 있다.

이를 위해서 chemCPA를 세 부분으로 세분화한다.

1. Encoder-Decoder

Encoder($E_{\theta}$)는 파라미터 $\theta$를 가지는 MLP로 $n$차원 gene expression을 $l$차원 latent vector $z_i$로 바꾼다. 이 과정에서 adversairal classifiers를 통해 $z_i$에 속성 $y_i$에 대한 정보가 포함되지 않도록 학습된다. 이렇게 생성된 $z_i$에 우리가 원하는 속성 임베딩을 더해 $z'_i = E_{\theta}(x_i) + z_{attribute}$를 얻는다

Decoder($D_{\psi}$) 또한 MLP로 $z'_i$를 입력으로 받아 gene expression 기반 분포 $\mathbb{P}$에 대한 성분별 파라미터를 계산한다. 왜냐하면 gene expression 데이터는 noise가 많아, 같은 조건의 세포라도 expression 값이 완전히 같지 않으므로 gene expression 값을 정확하게 예측하는 것보다, 평균과 분산으로 각 gene의 expression이 따를 확률분포를 예측하는 것이 자연스럽기 때문이다.

평균과 분산으로 파라미터화한다고 가정하면, 두 경우 모두 디코딩된 gene expression 상태를 설명하기 위해

$$\mu = D^{\mu}_{psi}(z') \ 및 \simga^2 = D^{sigma^2}_{\psi}(z')$$

을 얻는다.

chemCPA는 Gaussian likelihood에서 더 나은 수렴을 관찰하였고 이 경우 reconstruction loss는 다음과 같다

$\mathcal{L}_rec(\theta,\psi) = N(x_i \mid \mu_i,\sigma_i) = \frac{1}{2} \left[ln(D^{\sigma^2}_{\psi}(z'_i) + \frac{(D^{\mu}_{\psi}(z'_i) - x_i)^2}{D^{\sigma^2}_{\psi}(z'_i)}\right]$

$ ln(D^{\sigma^2}_{\psi}(z'_i)$ : 분산을 너무 크게 잡지 못한게 하는 penalty
$ \frac{(D^{\mu}_{\psi}(z'_i) - x_i)^2}{D^{\sigma^2}_{\psi}(z'_i)} $ : 예측 평균이 실제값과 가까워지도록 만드는 penalty

2. Attribute embedding and additive latent space

latent space에서 perturbation 반응이 additive 구조를 가진다고 가정한다

$$z'_i = z_i + z_{attribute} = z_i + z_{c_i} + \hat{s}_i z_{d_i}$$

이러한 additive한 구조는 사용자가 모델을 해석할 수 있게 하며, 순열 불변성을 가지며, 미세조정 과정에서 새로운 covariate를 추가할 수 있다는 장점을 가진다.

drug 속성과 cell line 속성은 성격이 서로 다르므로, 이들을 latent space에서 별도로 인코딩한다. cell line은 CPA와 동일한 접근법을 사용하며, drug의 경우, 새로운 임베딩 네트워크 $P_{\mathcal{\phi}$를 제안한다.

Perturbation Network

$P_ φ $는 분자의 그래프나 SMILES 같은 분자 표현, 사용된 용량을 latent perturbation state로 매핑한다. 이 네트워크는 분자 인코더 $G$, perturbation 인코더 $M$, 용량 스케일러 $S$로 구성된다

$G$는 약물의 분자 구조를 고정된 크기의 임베딩 $h_d$으로 인코딩하고, $M$은 분자 임베딩 $h_d$를 입력으로 받아 drug perturbation vector $z_d$를 생성한다. $S$는 $h_d$와 용량 $s_i$를 받아 스케일링된 용량 값 $\hat{s}_i$를 계산한다. 여기서 $z_d$는 약물의 일반적인 효과 방향, $\hat{s}$는 용량에 따른 효과의 세기를 나타낸다.

$$\hat{s}_i \times z_{d_i} = P_ φ (g_i,s_i) = S(h_{d_i},s_i) \times M(h_{d_i})\ with \ h_{d_i} = G(g_i)$$

$G$는 SMILES, molecular graph, RDKit feature 등 어떤 분자 표현을 사용해도 되지만, scRNA-seq HTS에서 이용 가능한 약물 수가 제한적이므로, 사전학습된 인코딩 모델에 의존하고 학습 중에는 $G$를 고정한다. 특히 RDKit을 분자 인코더 $G$로 사용한 경우가 좋은 성능을 보여주었다.

3. Adversarial classifiers for invariant basal states

basal state를 생성하고 $z_i,z_{d_i},z_{c_i}$의 분리된 표현을 만들기 위해서 adversarial classifiers $A^{drug}_{\phi}, A^{cov}_{\phi}$를 사용한다. 두 adversary network는 $z_i$를 입력으로 받아, 예시 $i$에 적용된 dru$d_i$g와 cell line $c_i$를 예측하는 것을 목표로 한다.

이 classifiers는 분류 성능을 향상시키도록 학습되는 반면, $E_{\theta}$의 학습 목적 함수에는 classification loss를 부호를 반대로하여 추가한다. 따라서 인코더는 속성에 대한 정보를 포함하지 않는 latent representation $z_i$를 생성하려 한다.

두 분류기 모두에 대해 Cross-entropy를 사용한다

$$\mathcal{L}^{drugs}_{class} = CE(A^{drug}_{\phi}(z_i),d_i) \ and \ \mathcal{L}^{cov}_{class} = CE(A^{cov}_{\phi}(z_i),c_i)$$

CPA 구현을 따라, adversarial classifiers의 손실 함수에 gradient penalty를 추가하여 다음 항을 최소화 한다

$$\mathcal{L}^j_{pen} = \frac{1}{k}\sum_k \left\| \partial_{z_i} A_{\psi}^{j}(z_i)_k \right\|_2^2$$

이 gradient penalty를 discriminator를 nosie에 강건하게 만들고 localconvergence를 가능하게 하는 것으로 나타났다.

학습 중에는 다음 경쟁적 목적함수들 사이에서 업데이트 단계를 번갈아 수행한다

$$\mathcal{L}_{AE}(\theta,\psi, φ \mid \phi) = \mathcal{L}_{rec}(\theta, \psi, φ) - \lambda_{dis} \sum_j \mathcal{L}^j_{class}(\theta \mid \phi) \ and \ \mathcal{L}_{Adv}(\phi \mid \theta) = \sum_j \mathcal{L}^j_{class}(\phi \mid \theta) + \lambda_{pen} \mathcal{L}^j_{pen}(\phi)$$

Datasets and Transfer learning

L1000
- data type : bulk RNA
- 관측치 수 : 약 130만 개
- gene 수 : 978개
- drug 수 : 약 2만개
- 특징 : FDA 승인 약물도 있고, 합성 화합물도 있음
- drug 수가 매우 많으므로 다양한 약물 구조와 gene expression 변화의 관계를 미리 배울 수 있음
sci-Plex3
- data type : single-cell RNA-seq
- cell 수 : 649,340
- gene 수 : 7561
- cell lien : A549, MCF7, K562
- drug 수 : 188 개
- dosage : 10nM, 100nM, $1_{\mu}M, 10_{\mu}M$
- preturbation : single-compund perturbation
- 세포 하나하나의 반응을 볼 수 있음
Transfer learning
- Gaussian likelihood loss로 gene expression count 값을 모델이 다루기 좋은 연속적인 값으로 바꿈
- 두 데이터셋의 gene set을 같게 맞춤, L1000, sci-Plex3에서 공통으로 대응되는 gene만 골라서 둘다 977개 gene으로 맞춤
  - pretraining / finetuning의 input / output 차원이 같으므로 transfer learning이 쉬움
- L100 977개 gene 만으로는 single-cell 데이터의 세포별 다양성 설명이 어려움, sci-Plex3에 HVGs 1023개 추가
  - input이 977, output이 2000으로 바뀜
  - 두 개의 layer를 추가하여 문제를 해결함
    - $h_{enc} : R^n \rightarrow R^n$ : 인코더 앞에 두어 2000 차원을 977차원으로 축소
    - $h_{dec} : R^{2n} \rightarrow R^{2n}$ : 디코더 뒤에 두어 977 차원을 2000차원으로 변환
      - 이때 $2n$인 이유는 디코더는 Gaussian likelihood를 위해 gene 마다 $\mu, \sigma^2$을 출력함

Experiments

Comparing chemCPA against existing methods on unseen drug-covariate combinations

학습 때 drug 와 cell line은 본적이 있지만 특정 drug-cell line 조합은 보지 못한 상황에서 예측할 수 있는가에 대한 실험을 진행하였다.

기존 scGen과 CPA는 학습때 보지 못한 drug를 처리하기 어려우므로 unseen drug-covariate combination을 사용하였다. 또한 scGen은 dosage를 명시적으로 구분해서 처리하지 못하므로 공정한 비교를 위해 dose 별로( 1 µM와 10 µM ) 실험을 따로 나눠서 실험하였다.

세 개의 cell line을 하나씩 돌아가며 test로 사용하였으며, 총 9가지 화합물을 테스트 대상으로 선택하였다. 이 약물들 대부분 후성유전학적 조절, tyrosine kinase ignaling, 세포주기 조절에 속한다.

성능은 실제 gene expression과 모델의 counterfactual prediction 사이의 r²로 평가했다. 전체 gene 기준 점수와, 약물 효과가 강하게 나타나는 DEGs 기준 점수를 모두 보고했다. baseline은 perturbation 정보를 사용하지 않는 모델이므로, baseline보다 성능이 높다는 것은 drug encoding이 실제로 예측에 기여했다는 의미다.

결과적으로 chemCPA는 scGen과 CPA보다 좋은 성능을 보였고, 특히 L1000으로 pretraining한 chemCPA가 가장 우수했다. 흥미롭게도 pretraining하지 않은 chemCPA도 CPA보다 좋은 성능을 보였는데, 이는 drug를 단순 ID embedding으로 외우는 대신 molecular representation을 통해 perturbation을 생성하는 구조가 regularization 효과를 주기 때문으로 해석된다.

Using chemCPA to predict single-cell responses for unseen drugs

chemCPA가 학습 중 보지 못한 약물의 single-cell 반응을 예측할 수 있는지 평가한다. 특정 약물을 학습에서 제외한 뒤 그 약물의 반응을 예측한다.

앞에서와 동일하게 9개의 약물을 unseen drug로 사용하고, 두 가지 gene set에서 실험한다

Shared gene sets

L1000과 sci-Plex3에 공통으로 존재하는 977개 shared genes

shared gene set 실험에서는 pretrained chemCPA가 baseline과 non-pretrained chemCPA를 일관되게 앞선다. 낮은 dose에서는 약물 효과가 거의 없어 baseline도 높은 점수를 보이지만, 높은 dose에서는 약물 효과가 뚜렷해지면서 chemCPA의 장점이 나타난다. 특히 DEGs 기준 성능은 전체 gene보다 낮지만, pretrained chemCPA는 약물로 인해 실제로 변한 gene expression도 어느 정도 설명할 수 있음을 보여준다.

Extended gene sets

sci-Plex3의 1023개 HVGs를 추가한 2000개 extended genes

extended gene set에서도 같은 경향이 유지된다. 2000개 gene을 사용하는 더 어려운 설정에서도 pretrained chemCPA는 가장 좋은 성능을 보였고, non-pretrained chemCPA는 baseline보다 약간 나은 수준에 머물렀다. 이는 L1000 같은 대규모 bulk RNA perturbation 데이터에서 배운 정보가 single-cell 데이터로 전이될 수 있으며, 심지어 두 데이터셋의 gene set이 다를 때도 도움이 된다는 점을 보여준다.

Measure uncertainty on the drug embedding

unseen drug 예측을 얼마나 믿을 수 있는지 평가하기 위한 uncertainty score를 제안하는 부분

chemCPA는 보지 못한 약물에 대한 반응을 예측하도록 설계되었지만, 그 일반화 능력은 결국 학습 데이터의 범위에 의해 제한된다. sci-Plex3 데이터에서는 전체 drug-dose 조합 중 20% 미만만이 control phenotype과 r2r^2 기준으로 35% 이상 차이를 보였고, 명확한 효과를 보이는 약물도 tyrosine kinase signaling, DNA damage and repair, cell cycle regulation, epigenetic regulation 등 일부 pathway에 집중되어 있었다. 저자들은 이러한 기술적 노이즈와 제한적인 약물 효과가 사전학습되지 않은 chemCPA가 확장 유전자 집합에서 baseline을 크게 넘어서지 못한 이유라고 해석한다. 반면 L1000 bulk RNA perturbation data로 사전학습한 모델은 더 다양한 약물 반응 정보를 활용할 수 있어 더 강건한 성능을 보였다.

이 한계는 perturbation latent space에서도 확인된다. 이상적으로는 비슷한 MoA를 가진 약물들이 잠재 공간에서 함께 클러스터링되어야 하지만, 실제로는 일부 약물에서 클러스터링이 불완전하게 나타난다. 특히 baseline 점수가 높은 경우, 즉 약물 효과가 control과 크게 다르지 않은 경우에는 chemCPA가 뚜렷한 교란 효과를 식별하기 어렵다.

이를 보완하기 위해 저자들은 약물 임베딩 공간에서의 불확실성 척도를 제안한다. 핵심은 KNN graph를 이용해 특정 약물 주변의 이웃 약물들이 어떤 MoA를 가지는지 확인하는 것이다. 이웃들이 동일한 pathway에 속하면 모델의 확신이 높고, 여러 pathway가 섞여 있으면 불확실성이 높다고 볼 수 있다. 여기에 이웃 약물들과의 거리 정보도 함께 반영하여, 약물이 주변 약물들과 얼마나 구별되는 교란 효과를 갖는지 평가한다.

$$u_i = \sum_{j \in N_i} \frac{1}{log(d(i,j))} \times H(X)$$

$d(i,j)$ : 약물 간 유클리드 거리
$H(X)$ : 이웃 약물들의 pathway 분포에 대한 Shannon entropy

결과적으로, unseen drug에 대한 불확실성 점수는 실제 예측 성능과 잘 상관되었다. 이는 chemCPA의 잠재 공간이 단순히 예측을 만드는 데 그치지 않고, 모델이 어떤 약물에 대해 신뢰할 만한 일반화를 수행할 수 있는지 해석하는 데에도 활용될 수 있음을 보여준다

Conclusion

이 논문은 보지 못한 약물(unseen drug) 에 대한 단일세포 유전자 발현 반응을 예측하기 위해 chemCPA를 제안한다. chemCPA는 약물의 분자 구조 정보를 활용해, 학습 데이터에 없는 약물의 교란 효과까지 예측할 수 있도록 설계되었다.

주요 기여는 세 가지다. 첫째, 분자 표현으로부터 단일세포 수준의 약물 반응을 예측하는 chemCPA를 제안했다. 둘째, 대규모 bulk RNA-seq HTS 데이터를 사전학습에 활용하는 전이학습 전략을 도입했다. 셋째, chemCPA가 CPA와 scGen보다 우수한 성능을 보이며, 기존 방법으로는 어려웠던 unseen drug 일반화 과제까지 다룰 수 있음을 보였다.

또한 저자들은 unseen drug 예측의 신뢰도를 평가하기 위한 불확실성 척도를 제안했다. 전체적으로 chemCPA는 단일세포 기반 약물 스크리닝과 신약 발견에 활용될 수 있는 가능성을 보여준다.

[논문 리뷰] Combinatorial prediction of therapeutic perturbations using causally inspired neural networks

coticoger — Tue, 28 Apr 2026 22:44:01 +0900

Introduction

기존 약물 발굴은 주로 질병 관련 단백질/효소를 먼저 정의하고 해당 타겟을 억제하는 화합물을 설계하는 one drug - one gene - one disease 방식의 표적 기반 약물 발굴이었다. ( imatinib ▶️ BCR-ABL 억제, trastuzumab ▶️ HER2 억제 )

하지만 실제 FDA에 승인된 많은 first-in-class 약물이 특정 약물 표적 가설 없이 발견되었으며, 이는 타겟을 먼저 정하는 접근이 항상 효과적이지 않음을 시사한다. 이는 기존의 표적 기반 약물 발굴이 복잡한 질병 메커니즘을 충분히 설명하지 못함을 시사한다.

이에 대한 대안으로 표현형 기반 약물 발굴이 등장하였다. 사전에 정의된 표적 없이 수행되는 분석을 통해 측정된 질병 표현형을 되돌리는 화합물 또는 치료 표적 조합(perturbagen)을 식별하는 데 초점을 두었다.

하지만 최근 딥러닝 기반 표현형 접근은 다음과 같은 한계가 존재한다.

화학적 및 유전적 라이브러리에 의존하므로 사전에 정의된 라이브러리 내에서만 perturbagen을 선택할 수 있고, 새로운 약물 표적 조합으로서의 perturbagen을 생성 할 수 없다.
라이브러리 내 모든 perturbation에 대한 표현형 변화만 예측하고, 원하는 반응을 보이는 perturbagen을 탐색하는 방식으로 perturbagen을 식별한다. 하지만 우리가 원하는 것은 표현형을 바꾸기 위해서 어떤 perturbagen이 필요한지를 예측하는 것으로 inverse problem을 해결하지 못한다

PDGrapher vs Previous Method

Methods

문제 정의를 하면 다음과 같다 $x^d$ (diseased gene expression), $x^t$(treated gene expression)이 입력으로 들어오고$\mathcal{U}'$이 출력된다. 즉, diseased 상태를 treated 상태로 이동시키는 perturbagen 예측 문제이다. (inverse perturbation prediction)

기존 방식 : perturbagen ▶️ 표현형 변화 예측 (forward problem)
PDGrapher : diseased 상태 ▶️ treated 상태 : 어떤 perturbagen이 필요? (inverse problem)

두 모듈로 구성되면 두 모듈은 같은 학습 과정( 병렬로 학습)에서 최적화되지만, perturbation discovery module 학습 시 response predictor는 frozen 상태로 사용한다.

Preturbagen discovery module

Perturbagen discovery

$$f_p(x^d,x^t) \rightarrow \mathcal{U}'$$

각 노드 구성 : $\left[x^d_i, x^t_i\right]$ 각각 현재 상태(diseased)와 목표(treated) 상태를 의미한다
임베딩 구성 : diseased embedding + treated embedding + positional embedding = 3d - dimention
- diseased embedding, treated embedding은 B-bin embedding을 사용하는데, expression 범위를 b개의 bin으로 구간을 나눠서 bin id로 embedding을 한다. (0.0 ~ 0.2는 bin 1, 0.3 ~ 0.4는 bin 2...)
- 같은 gene이면 샘플이 달라도 embedding이 동일함, 서로 다른 gene이면 샘플이 같고 bin이 같아도 다른 임베딩
GNN Message Passing : $h'_{i} = \phi(h_i \oplus_{j \in \mathcal{N}(i)} \psi(h_i, h_j))$
- K번 message passing 후 최종 node embedding $z_i$를 구함
$z_i$를 Multilayer Feedforward로 점수 $s_i$를 생성한다.
이렇게 생성된 각 노드 별 perturbation score $s_i$를 기반으로 높은 상위 P개의 노들를 선택하여 perturbation 집합 $\mathcal{U}$를 구성한다.

Response predictor module

Response prediction

위 이미지는 Inference 단계 이미지로 $x^d$만 입력으로 들어가지만, 학습 과정에서 $f_r(x^h,\mathcal{U}) \rightarrow x^d$와 $f_r(x^d,\mathcal{U}') \rightarrow x^t$ 두 가지를 모두 사용한다. ➡️ disease를 만드는 perturbation도 배우고, disease를 고치는 perturbation도 배우면서 intervention response function이 더 일반화됨

여기서 $\mathcal{U}$는 disease-association gene set, $\mathcal{U}'$은 chemical/genetic intervention이 적용된 gene set을 의미한다

$$f_r(x^d, \mathcal{U}') = \hat{x}^t$$

이때 예측한 treated expression을 정답 expression과 가까워지도록 최적화 한다.

각 노드 구 : $\left[x^h_i, x'_{\mathcal{U}}\right]$ : 정상 상태 gene expression, perturb flag(i번째 gene perturbation 여부)
임베딩 구성 : gene expression embedding + perturb embedding + positional embedding ▶️ 3d-dimension
- 이때 gene expression embedding은 B-bin embedding을 사용하는데, expression 범위를 b개의 bin으로 구간을 나눠서 bin id로 embedding을 한다. (0.0 ~ 0.2는 bin 1, 0.3 ~ 0.4는 bin 2...)
GNN Message Passing : $h'_{i} = \phi(h_i \oplus_{j \in \mathcal{N}(i)} \psi(h_i, h_j))$
- K번 message passing 후 최종 node embedding $z_i$를 구함
이 $z_i$를 MLP에 넣어 scalar 값을 예측 $\hat{x}^t_i = MLP_r(z_i)$
모든 gene node에 대해 반복하면 전체 예측 treated expression vector가 된다 $\hat{x}^t = \left[\hat{x}^t_1, \hat{x}^t_2,...,\hat{x}^t_n \right]$

Model Optimization

response prediction module $f_r$

$$\mathcal{L}_{f_r} = CE(x^d, f_r(x^h, \mathcal{U})) + CE(x^t, f_r(x^d, \mathcal{U}'))$$

intervention discovery module $f_p$

$$\mathcal{L}_{f_p} = CE(x^t, f_r(x^d,f_p(x^d,x^t))) + CE(\mathcal{U}',f_p(x^d,x^t)) (with\ f_r \ frozen)$$

왜 $f_r$를 freeze할까?
cycle loss 계산 과정에서는 $f_r$가 freeze된 상태로 사용되며, 이는 perturbation discovery module이 response predictor 자체를 수정하는 대신 올바른 perturbation 집합을 찾도록 유도하기 위함이다.

$ CE(x^t, f_r(x^d,f_p(x^d,x^t))) $ : Cycle loss, $f_p$가 예측한 perturbation 집합을 $f_r$에 입력했을 때 목표 상태 $x^t$가 잘 재현되도록 한다.
$ CE(\mathcal{U}',f_p(x^d,x^t)) $ : Supervisor signal, diseased 상태 $x^d$와 treated 상태 $x^t$가 주어졌을 때, 실제로 사용된 perturbation set $\mathcal{U}'$를 맞추도록 $f_p$를 지도학습한다.

cycle loss를 통해 예측된 개입 집합 $\mathcal{U}'$에 대한 반응이 목표로 하는 치료 상태 $x^t$와 가깝도록 만들며, $\mathcal{\hat{U}}'$을 예측하도록 지도 신호를 제공하기 위해 cross-entropy 손실을 추가한다.

만약 cycle loss만 있게되면 정답 perturbation 집합을 맞추도록 학습되지 않고, 효과만 맞는 아무 perturbation을 찾도록 학습된다.

Example
여러 perturbation set이 존재한다. $\mathcal{U}'_1, \mathcal{U}'_2, \mathcal{U}'_3,...$
모두 동일한 phenotype 변화 유도 가능 $f_r(x^d, \mathcal{U}'_1) \approx f_r(x^d, \mathcal{U}'_2) \approx x^t$
이 경우 cycle loss만 있으면 모델은 아무거나 선택해도 된다.

정답 : $\mathcal{U} = \{ gene A, gene B\}$
모델 예측 : $\mathcal{U}' = \{geneC, geneD\}$
인데도 cycle loss가 작다. 즉, correct target recovery는 보장되지 않는다.
그래서 supervision loss가 추가되어 정답 perturbation set과 일치하도록 강제한다.

Result

Dataset

PDGrapher는 다양한 intervention type, cancer type, causal graph 조건에서 일반화 성능을 검증하기 위해 총 38개의 dataset 조합에서 평가되었다.

intervention type : chemical / genetic
cancer type : 11개(폐암, 유방암, 전립선암, 대장암, 피부암, 자궁경부암, 두경부암, 췌장암, 위암, 뇌종양, 난소암)
causal graph : PPI / GRN
- PPI network는 BIOGRID database에서 가져왔으며,GRN은 각 dataset에 대해 GENIE3 알고리즘을 사용하여 gene expression 데이터로부터 추정하였다.
cell line 조합

PDGrapher 학습 데이터는 두 가지 구성 요소로 이루어짐

1. disease intervention dataset

(healty, diseased, associated disease genes)
Lung, Breast, Prostate cell line에서만 가능함

2. treatment intervention dataset

(diseased, treated, perturbagen)
- intervention : CRISPR, compund

모델의 Perturbagen 예측 성능 평가

성능은 nDCG, recall@k, exact-hit ratio, network distance를 기반으로 평가하였다.

모든 cell line과 모든 metric에서 기존 방법보다 높은 성능을 보인다.

nDCG : 예측된 gene target ranking이 실제 therapeutic target ranking과 얼마나 일치하는가
Extract-hit ratio : 모델이 예측한 상위 후보 중 실제 정답이 얼마나 포함되어 있는가
recall@k : $\frac{$top-k$안에 \ 포함된 \ 실제\ target\ 수}{전체\ 실제\ target\ 수}$
network distance : 예측이 틀렸어도, biological network 안에서 얼마나 가까운 위치의 gene을 맞췄는가를 평가
- x축은 PDGrapher - reference로 음수일 수록 PDGrapher가 예측한게 더 가까운 위치의 gene임을 의미한다.
- y축은 해당 distance 차이를 가진 샘플 비율을 의미한다
- 이 결과를 통해 PDGrapher가 단순히 랜덤하게 gene을 고르는 것이 아니라 실제 therapeutic target이 위치한 network neighborhood를 찾아냄을 보여준다.

Unseen Cell line generalization 검증

한 cell line에서의 random split만 보게 되면 해당 cell line의 패턴을 외울 수도 있다. 그래서 실제로 일반적인 규칙을 학습했는지를 보기 위해서 leave-cell-out ( 한 개 cell line을 제외하고 나머지로 학습한 뒤, 제외한 cell line으로 테스트 ) 을 수행한다.

unseen cell line에서도 기존 방법보다 높은 성능을 유지하여 cell-line specific pattern을 학습하지 않고 generalize 규칙을 학습했음을 보여준다

모델이 예측한 perturbagen이 실제로 생물학적으로 의미 있는 target인지 검증

(1) FDA-approved drug target recovery

training set에 없는 drug target(target gene)을 복원 가능하였고, 이는 generalizable mechanism을 학습했음을 의미한다

이 실험은 PDGrapher가 질병 상태의 세포주를 건강한 상태로 전환하기 위해 표적이 될 유전자들을 예측하고 상위 K개 gene 안에 FDA 승인 항암제의 실제 target gene이 얼마나 들어있는지를 recall로 평가한다.

(2) Open Targets association score 비교

random보다 disease relevance가 높은 gene 선택되었고, 이는 PDGrapher가 뽑은 target gene은 단순히 모델 내부 score가 높은 gene이 아니라, 외부 질병-유전자 데이터베이스에서도 실제 폐암 관련성이 확인되는 gene임을 보여준다.

A549 lung cancer cell line에서 PDGrapher가 예측한 top-10 target gene이 Open Targets에서 폐암과 관련성이 높은지를 확인한다. 이때 비교군으로 random gene 10개를 사용한다.

평가 기준은 두 가지이다.

Evidence strength : Open Targets가 계산한 질병-유전자 association score
Number of evidence sources : 해당 질병-유전자 관계를 지지하는 독립적 evidence source 수

(3) 실제 암관련 데이터베이스에서 암 관련 유전자로 확인되는지 검증

PDGrapher가 예측한 유전자들이 여러 evidence source에서 등장하는 것을 보여주며, 이는 여러 독립적인 데이터에서 동시에 암 관련 유전자임을 보여준다

PDGrapher가 예측한 target들이 실제로 질병 관련 evidence(Open Targets)에 의해 지지 되는가를 보여준다.

세로축 : PDGrapher가 예측한 candidate target genes (6개 cell line에서 top-10 gene만 모은 것)
가로축 : evidence source 종류
각 점
- 색 : 연관성 강도
- 크기: evidence 개수

(4) ranking과 biological evidence의 연관성

lung cancer A549

rank가 높을수록 disease 연관성이 높았다.

다음 두 가지 질문을 통해 연관성을 확인하다

상위 rank gene이 하위 rank gene보다 더 실제 치료 표적인가?
어디까지를 candidate gene으로 믿어도 되는가? (top 10? top 50?)

실험 결과는 랜덤하게 gene ranking이 나오지 않고 랭크가 높을수록 진한 색을 가지고 rank가 낮을수록 연한 색을 보였으며, top-100 안 gene 대부분이 강한 biological evidence를 가지고 있음을 확인할 수 있다.

Ablation Study

(1) Supervision loss & Cycle loss 중 무엇이 중요한가

supervision loss : $CE(\mathcal{U}', f_p(x^d,x^t)$
cycle loss : $CE(x^t,f_r(x^d,f_p(x^d,x^t)))$

다음 세 가지 모델을 비교한다

모델	사용 loss
PDGrapher-Cycle	Cycle only
PDGrapher_Super	Supervision only
PDGrapher-SuperCycle	둘 다 사용

Perturbagen prediction에서는 PDGrapher-Super가 최고 성능을 보였지만, PDGrapher-Cycle은 최악의 성능을 보였다.

Cycle이 더 높다(자세하게 봐야한다)

state reconstruction에서는 PDGrapher-Cycle이 최고 성능을 보였다. 이 두 실험 결과를 바탕으로 두 목적을 동시에 만족하는 PDGrapher-SuperCycle을 선택한다.

(2) PPI causal graph 품질에 민감한가?

(2 - 1) STRING confidence threshold 변화 실험

STRING database는 gene-gene interaction edge마다 confidence score를 제공한다. threshold를 높여 low-confidence interaction을 제거해 network를 sparse하게 만들어도 PDGrapher 성능이 안정적으로 유지됨을 보여준다

(2-2) bridge edge 제거 실험

그래프에서 영향이 큰 영역을 연결하는 핵심 edge로 이 edge를 제거하면 구조가 크게 변하게 된다. 하지만 실제 실험 결과 성능 변화는 거의 없었으며(특히 bridge edge를 100% 제거하여도 점수가 0이 되지 않음 ➡️ graph backbone이 붕괴돼도 모델이 완전히 실패하지 않음), 그 이유는 bridge edge는 구조적으로 중요하지만 개수가 적어서 전체 prediction 영향이 제한적이기 때문이다.

(2-3) random edge 제거 실험

edge를 무작위로 제거하여 중요한 edge도 제거되고 덜 중요한 edge도 제거하엿다. 기존 실험과 달리 성능이 많이 감소하였고, 이는 pDGrpaher는 그래프 구조 자체는 활용하지만 특정 edge 하나에 의존하지 않고 전체 connectivity 패턴을 사용함을 보여준다.

(3) Latent confounder에 robust 한가?

Latent confounder : 관측되지 않았지만 여러 gene expression을 동시에 바꾸는 숨겨진 요인

PDGrapher는 다음과 같은 기본 가정을 한다

PPI network $\approx$ causal graph
no unobserved confounders

즉, 관측되지 않은 숨겨진 변수가 gene expression에 영향을 주지 않는다고 가정한다.

하지만 현실에서는 다양한 latent confounder가 항상 존재한다. 그래서 실제 latent confounder가 존재할 때 PDGrapher의 성능이 얼마나 유지될지 실험하였다.

결과를 보면 confounder가 증가할수록 성능이 감소했다. 하지만 causal structure는 유지하고 expression만 망가뜨렸는데도 성능이 완전히 붕괴되지 않았다(전부 confounder가 적용돼도 0이 아님).

Latent Confounder를 어떻게 시뮬레이션했는가?
다음과 같은 인위적인 방식으로 생성하였다
- random subset의 gene module 선택 (gene module은 서로 기능적으로 관련되어 있고 network에서 서로 촘촘히 연결된 gene 집합)
- 서로 다른 평균과 분산을 가진 가우시안 노이즈 추가
즉, $x_i \rightarrow x_i + \epsilon$ 형태로 gene expression을 교란하였다.

x축 : confounder 영향을 받는 gene module 비율 (오른쪽으로 갈수록 많은 데이터가 confounder됨)

즉, PDGrapher가 gene expression noise에만 의존하지 않고 causal graph 구조 정보를 함께 활용한다는 것을 의미한다.

(4) Healthy control 데이터(disease intervention data)가 반드시 필요한가?

healthy control 없이도 성능이 크게 떨어지지 않는다. 즉, PDGrapher는 disease intervention data에 크게 의존하지 않는다.

위에서 설명했듯이 논문에서 사용하는 학습 데이터는 두 종류이다. (response prediction module)

disease intervention data : $<x^h, \mathcal{U}, x^d>$
treatment intervention data : $<x^d, \mathcal{U}',x^t>$

데이터셋에서 설명했듯이 현실에서 많은 cell line에 대해 healthy control sample이 없다. 그래서 대부분 diseased, treated만 존재한다. 이러한 상황에서 PDGrapher가 healthy control 없이도 잘 동작되는지를 실험하였다.

Objective

논문은 표현형 기반 신약 발굴 문제를 다음처럼 정의한다

diseased sample이 주어졌을 때 treated 상태로 이동시키는 gene target set을 찾는 문제

즉, $x^d \rightarrow \hat{x}^t \approx x^t$ 이 변화를 만드는 gene set을 예측하는 문제이며, 기존처럼 single target이 아닌 $\mathcal{U} = \{g_1,g_2,...,g_k\}$ 형태의 combinatorial prediciton problem이다.

Contribution

combinatorial target prediction 가능 : single-target 접근을 넘어 multi-gene intervention 설계 가능
personalized therapy 가능성 : 입력이 $x^d$이므로 개별 환자 expression profile 기반 target 예측이 가능하다
gene dependency 반영 : 기존 one drug - one gene 처럼 보지 않고 유전자 네트워크 상호작용을 함께 고려하여 multiple genes - disease phenotype으로 복합적인 질환 메커니즘에 맞는 perturbation 조합 예측 가능

Limitation

Unobserved confounder 가정
- PDGrapher는 unobserved confounder(유전자 발현 변화는 우리가 알고 있는 gene interaction만으로 설명된다)가 없다고 가정하며, 이 가정은 경험적으로 검증하기 어려움 (실제로는 많은 biological 변수들이 영향을 미침)
PPI/GRN을 causal graph의 proxy로 사용하는 한계
- PPI와 GRN을 causal gene network의 근사로 사용하지만 이들 네트워크는 본질적으로 noisy하고 incomplete
- 즉, 모델이 사용하는 gene network가 실제 causal 구조와 완전히 일치하지 않음
Transcriptomics 데이터에 대한 의존성
- 모델이 transcriptomic 데이터에 기반하므로 다른 phenotype modality를 반영하지 못함 ( 표현형 변화의 일부만 보고 예측 = 정보 부족 상태에서 예측)
- protein activity, metabolite 상태, cell morphology, chromatin 구조 같은 정보도 중요함. 즉 gene expression은 같아도 protein activation 상태가 다를 수 있음
Healthy control cell line mismatch 문제
- A549와 NL20은 서로 다른 anatomical origin(baseline이 다름)을 가지므로 baseline gene expression 차이에 따른 bias가 발생할 수 있다
- 모델이 차이를 disease effect로 생각하지만 실제로 이 차이는 tissue origin difference일 수도 있다. 즉, disease signal이 왜곡될 수 있다.

[논문리뷰] Deep generative models design mRNA sequences with enhanced translational capacity and stability

coticoger — Wed, 15 Apr 2026 17:53:55 +0900

He Zhang, et al. "Deep generative models design mRNA sequences with enhanced translatjional capactiy and stability" Science 2025
논문 바로가기

mRNA 백신은 COVID-19 예방에 효과적임이 입증되었다. 현재 mRNA 치료제를 다양한 질환으로 확장하려는 시도가 이루어지고 있지만, 이러한 응용이 성공하려면 더 강하고 오래 지속되는 단백질 발현이 필요하다.

특히 CDS와 UTR을 포함한 최적의 mRNA 서열 설계는 번역 효율을 향상시켜 mRNA 치료제의 목표를 실현하는 데 핵심적이지만, 실제로 가능한 mRNA 서열 공간이 매우 방대하므로 어려운 문제로 남아있다.

수식을 통한 방대한 공간임을 보여준다

이를 해결하기 위해 다양한 연구가 진행되어 왔다.

1. GC 함량, U 비율과 같은 뉴클레오타이드 사용 비율이나 CAI와 같은 코돈 사용 최적화는 번역 효율을 향상시킬 수 있다고 보고되었지만, 이러한 방법들은 특정 코돈을 많이 쓰거나 GC 비율을 맞추는 식으로 서열의 일부 요소만 조정하기 때문에, mRNA 전체에서 나타나는 구조적 상호작용이나 긴 거리의 서열 관계까지는 충분히 반영하지 못한다.

CAI
해당 생물 종이 선호하는 codon을 얼마나 많이 사용하는지를 나타낸다. 선호코돈은 tRNA가 많아 번역이 빠르게 일어난다.

GC 함량
G와 C는 3개의 수소결합으로 안정적이다.

U 함량
U가 많은 부위는 RNA decay 기작에 더 잘 인식되어 분해되기 쉬워지고, 그 결과 단백질 발현이 낮아질 수 있다

2. 풍부한 맥락 정보를 반영하기 위해 딥러닝 기반 CDS 최적화 모델이 제안되었지만, LSTM은 긴 유전자 서열 처리 능력이 제한적이고 병렬 학습이 어려워 학습 가능한 데이터 규모와 모델의 일반화 성능에 제약이 있다.

3. 구조적 특성을 최적화 목표에 포함하고 동적 계획법(가능한 구조 조합이 매우 많아서 사용한 알고리즘)을 활용해 전역 최적화를 수행한 연구도 보고되었지만, 해당 방법은 이 논문의 제안보다 좋은 성능을 보이지 않았으며, 이 알고리즘은 화학적으로 변형된 mRNA 서열에는 적용되지 않아 치료용 mRNA 설계에서 효과가 제한된다.

4. 5'UTR의 de novo 설계 역시 5'UTR이 번역을 조절하는 메커니즘이 아직 완전히 밝혀지지 않아 어려운 과제로 남아있다. 최근 5'UTR의 2차 구조 최소화를 기반으로 한 설계 방법을 통해 세포 기반 실험에서 번역 효율 향상을 보였지만, 번역 개시 효율에 영향을 줄 수 있는 MRL이나 UTR-CDS 상호작용과 같은 요소는 고려되지 않았다.

5. 일부 연구에서는 먼저 라벨링된 데이터로 예측 모델을 학습한 뒤 이를 유전 알고리즘과 결합하여 5'UTR을 개선하는 머신러닝 기반 접근법이 제안되었지만 이 방법은 예측 모델의 신뢰도에 크게 의존하며, 진화 알고리즘은 지역 최적해에 빠질 가능성이 있다.

de novo
기준 자연 서열을 수정하는 것이 아닌 완전히 새로운 서열을 처음부터 생성하는 것

MRL
하나의 mRNA 분자에 평균적으로 몇 개의 리보솜이 붙어 있는지를 나타내는 값

인간 언어와 유전 언어 간의 유사성에 착안하여 텍스트생성 모델의 개념과 구조를 mRNA 설계에 적용했다. 이를 통해 설계된 모델이 이 논문에서 개발한 GEMORNA이다.

GEMORNA를 통해 매우 방대한 설계 공간을 고성능 설계 공간에 위치하도록한 뒤, in vitro 및 in vivo 실험 검증을 통해 hit space에 도달한다.

이제 GEMORNA 구조를 자세하게 살펴보자.

GEMORNA-CDS

Training

단백질 서열을 소스로 mRNA CDS를 타겟으로 간주하고, 트랜스포머 아키텍처를 적용하였다

- 인코더 모듈은 단백질 정보를 처리

- 디코더 모듈은 CDS 서열을 생성한다

학습 과정에서는 자연 CDS 서열을 토큰화한 뒤 causal mask를 적용하여 teacher-forcing 방식으로 인코더에 입력하였다. 동시에 디코더는 코돈 확률 분포를 병렬적으로 출력한다. 이후 입력 분포와 출력 분포 사이의 cross-entropy loss를 계산하고 이를 역전파하여 모델 파라미터를 업데이트 하였다.

L(D) = - \frac{1}{\mid D \mid}\sum^{\mid D \mid}_{i=1} \sum^L_{t=1} log P_{\theta}(x^i_t \mid x^i_{<t},y^i)

모델이 예측한 코돈이 실제 정답 코돈과 가까워지도록 학습한다.

Cross Attention
$$
Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V
$$
- $Q$ : 디코더의 hidden state
- $K$ : 인코더 output (단백질 임베딩)
- $V$ : 인코더 output (단백질 임베딩)

e.g. 단백질 길이 ($L_p$) = 300, 현재 생성 중인 CDS 길이 ($L_c$) = 120, 임베딩 차원($d$) = 512
1. 단백질 서열은 인코더 통과 후 $H = (h_1, h_2, ..., h_300)$이 되고 $K = V = (300 \times 512)$
2. 디코더 내부 표현은 현재까지 생성된 CDS 길이에 따라 $Q = (120 \times 512)$
3. 이제 attention을 계산 $QK^T = (120 \times 512)(512 \times 300) = (120 \times 300)$인 행렬이 생성된다. 이 행렬은 각 CDS 위치가 각 아미노산 위치를 얼마나 참고할지를 의미한다.
4. 마지막으로 V를 곱하면 $(120 \times 300)(300 \times 512) = (120 \times 512)$로 디코도 표현과 동일한 형태를 유지하게 된다. 하지만 이전과 다르게 단백질 정보를 반영한 CDS 표현이다

Inference

teacher-forcing 디코딩 대신 autoregressive decoding을 사용한다. 이때 sampling, greedy search, beam search 같은 전략을 사용하였다. 이를 통해 다양한 CDS 서열을 생성하였다.

- Greedy : 가장 확률이 높은 것을 선택

- Sampling : 확률에 따라 랜덤으로 선택한다 (높은 확률일 수록 선택될 확률이 높다)

- Beam : 항상 k개 후보를 유지하도록 한다. ( top-k 선택)

Teacher forcing
입력은 정답 토큰으로 제공하고 모델이 현재 위치의 토큰을 예측하도록 하고, 그 예측값이 실제 정답 토큰과 같아지도록 cross-entropy loss를 통해 파라미터를 업데이트
e.g. input : <s> AUG CAG GCA , output : AUG CAG GCA
입력이 <s> AUG 일 때 현재 토큰을 TGC로 예측했더라도, 다음 입력은 정답인 <s> AUG CAG가 들어가야함
Autoregressive
다음 토큰을 예측할 때 모델이 이전에 스스로 생성한 토큰을 입력으로 사용(Teacher forcing은 생성한 토큰이 아닌 정답 토큰을 넣었다.)

이제 생성된 CDS를 분석한 결과를 봐보자.

[그림1]

GEMORNA는 별도의 규칙 기반 필터 없이도 mRNA에 유리한 코돈 사용 패턴과 뉴클레오타이드 조성을 자동으로 학습하였으며 번역 효율 향상, 원치 않는 선천면역 반응을 최소화할 수 있는 가능성을 보여준다.

Unwanted codon pair
리보솜은 코돈을 연속으로 읽는다. 각각의 코돈이 개별적으로 나쁘지 않아도 둘이 연속해서 붙으면 번역에 불리할 수 있다.

CSC (codon stability coefficient)
해당 코돈이 많을수록 mRNA 반감기가 길어지는 경향이 있는지를 나타내는 지표

Slippery site
리보솜이 미끄러지기 쉬운 서열, 리보솜이 mRNA를 읽는 reading frame을 유지하지 못하고 한 칸 밀려서 읽어버릴 위험이 높은 서열 패턴

MFE(minimum free energy)
주어진 RNA 서열이 접힐 수 있는 구조 중 가장 안정한 구조의 에너지 값으로 작을수록 안정하다.

[그림2]서로다른 CDS 설계 방법들 비교

GEMORNA가 좋은 성능을 보이고 있으며, Natural이 Random보다 우측 상단 방향으로 이동해 있는것이 보일 것이다. 이는 포유류 mRNA 서열이 특정 방향으로 적응적으로 진화했음을 반영한다. 또한 LinearDesign 알고리즘으로 생성된 CDS는 대부분의그래프에서 다른 특성(위치)를 보이며 이는 Natural 패턴과 다른 방향으로 작동함을 보여준다.

[그림3]여러 실험 데이터셋에서 다양한 최적화 지표와 실제 mRNA 발현,안정성 상관관계를 비교한 결과

여러 특징(x축) 중에서 어떤 것이 실제 발현량(y축)과 가장 관련이 있는지를 비교한 표이다. naturalness가 가장 높은 상관관계를 보였으며 이는 [그림1]에서 GEMORNA가 높은 naturalness를 보여주었고 이는 GEMORNA의 설계 전략이 실제 성능 향상으로 이어질 수 있음을 보여준다.

m1Ψ
U와 비슷하게 읽히지만 면역 자극은 덜 하고 번역은더 잘되도록 만든 U

초기 발현량을 높게 만들 수 있지만, 이 발현량이 얼마나 오래 지속되는지도 중요하다. GEMORNA가 만든 CDS가 얼마나 오래 지속되는 발현을 가지는지를 조사했다.

[그림4] 왼쪽 48시간 기준 발현량 비교、 오른쪽 24시간 대비 48시간 활성 비율

왼쪽 그래프는 세포 안에서 luciferase 단백질이 단백질이 얼마나 만들어졌는지 즉 CDS 성능을 보여준다. 확연하게 GEMORNA가 생성한 CDS의 성능이 좋음을 볼 수 있다.

오른쪽 그래프는 Normalized Fluc Activity = 48시간 발현량 / 24시간 발현량으로 시간이 지나도 발현이 얼마나 유지되는지를 나타낸다. GEMORNA가 생성한 CDS가 시간이 지나도 발현량이 지속되는 것을 확인할 수 있다.

오른쪽 이미지에서 점이 3개인 이유는 동일한 조건의 실험을 독립적으로 3번 반복한 결과를 표시한 것이다.

GEMORNA UTR

mRNA CDS 자체뿐 아니라 CDS를 둘러싸고 있는 UTR 서열 역시 발현 수준과 mRNA 안정성을 조절함으로써 mRNA 치료제와 백신 성능에 중요한 역할을 한다.

UTR은 단백질 서열과 직접적인 대응관계가 없으므로 디코더를 적층한 구조로 사용하여 GEMORNA UTR 모델을 구축하였다.

Training

그래서 손실함수를 보면 CDS와 달리 y(단백질)가 없다. 여기서도 동일하게 입력으로는 정답 서열이 들어가고 출력(예측값)과 정답 토큰이 동일하게 되도록 학습이 된다.

Inference

추론 단계는 다른게 없으니 굳이 설명하지 않겟다. 모르겠으면 CDS 추론 단계쪽을 다시 보자.

여기서 주목해야 할 점은 CDS와 달리 UTR 모델은 서로 다른 학습 방식을 적용한다는 것이다.

GEMORNA-CDS는 별도의 미세조정 없이 학습되었으며, 편향된 sampling(Greedy) 전략을 추론 단계에서 적용하여 원하는 특성과 높은 성능의 CDS를 생성하였다
GEMORNA-UTR는 자연 UTR 데이터셋에서 특정 기능적 서열 패턴, 문맥 의존적 모티프, 기능적 특성이다양하거나 희소하게 분포되어 있어 이를 효과적으로 학습하기 위해 미세조정 과정이 필요하다.

GEMORNA-UTR 학습과정을 좀 더 자세하게 보자면 먼저 자연 UTR 서열을 이용해 사전학습하여 자연 유전자 서열에 내재된 암묵적 규칙을 모방하고 학습한다. 이후 번역 효율 또는 안정성이 높은 선별된 자연 UTR 서열을 이용해 추가적인 미세조정을 수행한다.

미세조정을 위해 MRL 값이 높은 5'UTR 서열을 사용하였다. 이때 MRL 예측 모델을 구축하고, 해당 모델을 기반으로 미세조정에 사용할 5'UTR을 선별하였다.

마찬가지로, 3'UTR이 기여하는 안정성을 예측하는 모델도 구축하여 미세조정에서 사용할 3'UTR 서열을 선별하였다.

Pred-5UTR : MRL prediction model for 5'UTR
단방향 GRU 두 개 층으로 구성되어 있으며, 두 층의 최종 상태를 concatenate한 뒤 완전 연결층에 입력하도록 설계되었다. 짧은 서열은 오른쪽 방향으로 padding을 추가하였다

Pred-3UTR : Stability prediction model for 3'URT
TextCNN 기반 모델을 학습하였고, 각 서열의 분해 속도가 기준값으로 사용되었다.

[그림5]

GEMORNA가 생성한 UTR이높은 MRL, MFE, 그리고 향상된 단백질 발현을 보이는 것을 확인할 수 있다.

[그림6]

5'UTR의 효과만을 평가하기 위해 표적 단백질로 Fluc2P를 사용하고, 모든 실험 구성에서 CDS와 3'UTR은 동일하게 유지하였다 (CDS와 3'UTR도 바꾸면 연관 효과까지 고려해야하니까, 5'UTR만 보기위해서).

오른쪽 그림에서 보듯이 GEMORNA가 생성한 총 12개의 5'UTR 중에서 5개가 BNT162b2보다 더 높은 Fluc 활성을 보였다.

[그림7]

또한 HepG2 세포에서의 5'UTR 성능은 HEK293T 세포 결과와 높은 상관관계를 보였고 이는 특정 세포주에만 국한되는 것이 아니라 다른 세포주에서도 5'UTR이 번역 효율을 높이는 효과가 일관되게 유지한다는 것을 보여준다.

마찬가지로 GEMORNA로 10개의 3'UTR을 설계하고 이를 비교하였다.

[그림8]

결과를 보면 GEMORNA와 비교군을 포함한 많은 서열이 유사한 발현 수준을 보였고 이는 3'UTR이 번역 효율에서 상대적으로 보조적인 역할을 하기 때문이라고 논문에서 해석한다. 그러나 10개 중 8개의 GEMORNA 3'UTR이 BNT162b2의 3'UTR과 동등하거나 더 우수한 성능을 나타내었고, de novo 설계가 가능한 유효한 대안임을 보여준다.

Fluc2P
reporter protein으로 단백질 자체의 기능이 아닌 발현량을 측정하는 것이 목적이므로 사용하였다.

5'UTR과 3'UTR의 조합이 발현 수준에 어떤 영향을 미치는지를 실험하였다.

5'UTR과 3'UTR의 관계를 분석하기 위해, Fluc2P reporter와 CD19 CAR를 각각 암호화하는 두 종류의 CDS를 사용하고, CDS를 고정한 상태에서 다양한 5'UTR-3'UTR 조합의 효과를 평가하였다.

CAR
암세포를 더 잘 찾도록 만든 인공 수용체 단백질

구체적으로 8개의 5'UTR 11개의 서로 다른 3'UTR을 조합하여, 동일한 5'UTR을 공유하는 8개의 그룹을 구성하였다.

[그림9]

전체적으로 80% 이상의 UTR 조합이 BNT162b2 기준 UTR 대비 향상된 발현 수준을 보였다.

[그림10]

[그림6] 오른쪽 이미지에서 나타난 5'UTR 성능 결과와 밀접하게 일치함을 확인할 수 있다. 동일 그룹 내에서 서로 다른 3'UTR이 발현 수준에 변동을 유도했고, 발현 수준이 높을수록 변동 폭이 더 크게 나타났다. 이는 3'UTR이 mRNA 안정성, 세포 내 위치, 5'UTR과의 상호작용에 관여하기 때문으로 해석된다.

5'UTR과 3'UTR이 발현 수준에 기여하는 정도를 추가적으로 분석하기 위해 다음과 같은 비교를 수행하였다

[그림11]

동일한 5'UTR을 유지하고 3'UTR만 변화시킨 그룹의 평균 fold-change

동일한 5'UTR을 BNT162b2 3'UTR과 조합했을 때의 fold-change

이 두값을 비교한 결과, 두 조건 간에 상관관계가 관찰되었으며 이는 발현 조절에서 5'UTR이 주요 결정 요인임을 시사한다. 즉 같은 5'UTR이면 어떤 3'UTR을 붙여도 발현량 수준이 거의 유지됨을 나타낸다.

fold-change
변화 후 값 / 변화 전 값 으로 기준 대비 얼마나 증가했는지 감소했는지를 나타낸다.

그러나 동일한 UTR 조합이 서로 다른 단백질 표적에서 일관된 성능을 보이지는 않았다.

[그림12]

이는 UTR에 의한 발현 조절이 단백질 표적에 강하게 의존함을 의미하며, 보편적으로 최적인 UTR 조합이 존재하기 어려움을 시사한다.

Full-length mRNA design with GEMORNA

앞 실험들을 통해서 GEMORNA가 생성한 CDS, UTR이 다양한 기준 서열과 비교했을 때 in vitro 번역 효율이 높다는 것을 확인할 수 있었다.

이제 GEMORNA 요소들로 구성된 full-length mRNA 설계가 단백질 발현을 추가적으로 향상시키고, mRNA 백신에서 면역원성까지 개선할 수 있는지를 평가해보자.

이를 위해서 mRNA가 생성해야할 단백질(표적 단백질)을 네 가지로 나눴다.

[그림13]

[그림4]에서 GEMORNA CDS 중 가장 높은 번역 효율을 보인 GMR-FL2과 검증된 GEMORNA UTR 중에서 3개의 5'UTR, 3개의 3'UTR을 무작위로 선택하여 5개의 서로 다른 UTR 조합을 full-lenght mRNA 설계에 적용했다.

이후 두 기준 mRNA와 비교했다

Benchmark-FL1 : IDT에서 설계한 CDS + 자연 alpha globin UTR
Benchmark-FL2 : pGL4.11 CDS + BNT162b2 UTR

[그림14]

실험 결과를 보면, 모든 GEMORNA 설계 서열은 기준 mRNA 보다 높았으며, 특히 48시점에서 더 큰 향상 효과가 관찰되었다. 또한 단백질 발현 향상 효과는 HepG2 세포에서도 동일하게 관찰되었다 ( [그림12]는 조합이 다르다는 거고, [그림14]는 발현 패턴이 비슷하다를 의미한다).

추가로 GEMORNA 모델을 COVID-19 mRNA 백신용 합성 CDS에 적용하여 추가 검증을 수행하였다.

[그림15]

위 그래프에서 볼 수 있듯이 GEMORNA가 생성한 CDS는 다른 것 보다 우수한 성능을 보여주었다. 이러한 성능은 GEMORNA CDS와 GEMORNA UTR을 조합한 결과에서 훨씬 두드러지게 나타났다.

다음으로 full-length 설계의 면역원성을 기준 서열과 비교 평가하였다. 이를 위해 LNP로 캡슐화된 mRNA를 각 서열별로 마우스 5마리씩에 주입했다.

[그림16]

실험 결과, GEMORNA 기반 full-length mRNA는 면역 후 여러 시간 지점에서 높은 항체 역가를 유도하였다.

만약 최적의 CDS를 먼저 선별하지 않고도 우수한 full-length mRNA를 직접 설계하고 실험적으로 검증할 수 있다면 mRNA 개발 과정을 크게 가속화할 수 있다. 이를 검증하기 위해 5개의 GEMORNA CDS와 3개의 GEMORNA UTR 조합을 결합하여 무작위로 7개의 full-length mRNA 설계를 생성하였다.

NanoLuc luciferase reporter의경우, GEMORNA로 설계된 mRNA가 문헌에서 제시된 CDS와 BNT162b2 UTR을 사용한 강력한 기준 서열 보다 더 높은 발현 수준을 나타냈다.

EPO의 경우, 무작위 7개 GEMORNA 설계 mRNA를 코돈 최적화 CDS와 BNT162b2 UTR로 구성된 기준 서열과 비교했다. 7개 중 6개 설계에서 EPO 활성 증가가 확인되 었다. 특히 GMR-EPO-F6는 기준 서열보다 더 오래 지속되는 발현을 보였다

또한 GEMORNA 설계는 HepG2 세포에서도 더 높은 발현 수준을 나타냈다. 이후 in vitro에서 가장 높게 발현을 보인 3개의 EPO 설계를 선별하여 in vivo 검증을 수행했고. 그 결과 GEMORNA 서열은 마우스에서 기준 서열보다 더 높은 발현 수준과 더 긴 지속시간을 보였다.

Circular RNA design with GEMORNA

circRNA는 말단이 없어 선형 RNA에 비해 끝에서부터 뉴클레오타이드를 제거하는 exonuclease에 대한 저항성이 높다.

이전 연구에서 최적화된 topology, 선별된 UTR, 그리고 engineered IRES를 활용하면 circRNA 발현이 향상될 수 있음이 보고된 바에 따라 단순화된 topology를 유지하면서도 AI 생성 CDS와 선별도니 IRES를 결합하면 circRNA 성능을 더욱 향상시킬 수 있다고 가정한다.

IRES
원형 RNA는 Cap이 없어 리보솜이 mRNA의 중간 위치 내부에서 직접 결합하여 번역을 시작할 수 있도록하는 RNA 서열 구조

위 결과를 통해 GEMORNA 설계 circRNA는 누적 NanoLuc 발현 수준 증가, 높은 발현 지속성을 보였다.

또한 EPO를 암호화하는 circRNA에 대해서도 평가를 수행했다.

이후 in vitro에서 높은 번역효율을 보인 3개의 GEMORNA circRNA를 선별하여 in vivo 실험을 수행하였다.

그 결과 세 가지 모두 기준 대비 24시간 시점에서 더 높은 EPO 발현 수준을 보였다.

mRNA 백신의 성공 이후, in vivo CD19 CAR T 치료에 mRNA 기술을 적용하려는 관심이 증가하고 있으며 현재 임상시험에서도 평가되고 있다. GEMORNA 기반 circRNA의 지속성 및 치료 잠재력을 평가하기 위해 비바이러스 CD19 CAR T 세포 실험을 수행하였다.

그 결과 GEMORNA circRNA는 전기천공 24시간 후 높은 유전자 발현 수준을 나타냈다.

또한 전기천공 120시간 후에도 GEMORNA circRNA 처리 세포의 50%가 CD19 CAR 양성 상태를 유지한 반면, 기준 circRNA는 72시간 이전에 감소하였다.

추가로 인간 1차 T 세포에서 NALM-6 세포에 대한 세포독성을 평가한 결과

GEMORNA 설계 circRNA는 NALM-6 세포를 효과적으로 제거한 반면, 코돈 최적화 기준 서열은 거의 세포 독성 효과를 보이지 않았다.

이러한 결과는 생성형 AI로 설계된 circRNA가 in vitro 환경에서 CD19 CAR T 세포의 종양 제거 능력을 효과적으로 향상시킬 수 있으며, 향후 in vivo CAR T 치료에도 활용 가능성이 있음을 시사한다.

Discussion

GEMORNA는 기존 RNA 언어 모델들이 주로 서열의 특성을 예측하는 데 초점을 맞춘 것과 달리, 고품질 mRNA 구성 요소를 직접 생성하기 위한 생성형 모델로 설계되었으며, 특히 circRNA 설계에서도 장기간 발현을 크게 향상시키는 성능을 보였다. 또한 상용 서열과 최신 설계 방법들과의 비교에서도 발현 수준, 안정성, 면역원성 측면에서 우수한 결과를 나타냈다. 다만 외래 mRNA의 발현 및 안정성에 대한 대규모 실험 데이터가 추가로 확보된다면 모델 성능은 더욱 향상될 수 있으며, 조직 특이적 또는 질병 특이적 설계에 특화된 모델로 확장될 가능성도 있다. 한편 GEMORNA는 딥러닝 기반 모델 특성상 내부에서 어떤 특징을 학습했는지 해석이 어려운 블랙박스 한계를 가지므로, 번역 및 RNA 분해 메커니즘에 대한 추가적인 생물학적 이해와 함께 후속 검증이 필요하다. 이러한 점에도 불구하고 GEMORNA는 mRNA 백신과 치료제 개발을 가속화할 수 있는 효과적인 새로운 mRNA 서열 설계 전략으로 제시된다.