He Zhang, et al. "Deep generative models design mRNA sequences with enhanced translatjional capactiy and stability" Science 2025
논문 바로가기
mRNA 백신은 COVID-19 예방에 효과적임이 입증되었다. 현재 mRNA 치료제를 다양한 질환으로 확장하려는 시도가 이루어지고 있지만, 이러한 응용이 성공하려면 더 강하고 오래 지속되는 단백질 발현이 필요하다.
특히 CDS와 UTR을 포함한 최적의 mRNA 서열 설계는 번역 효율을 향상시켜 mRNA 치료제의 목표를 실현하는 데 핵심적이지만, 실제로 가능한 mRNA 서열 공간이 매우 방대하므로 어려운 문제로 남아있다.

이를 해결하기 위해 다양한 연구가 진행되어 왔다.
1. GC 함량, U 비율과 같은 뉴클레오타이드 사용 비율이나 CAI와 같은 코돈 사용 최적화는 번역 효율을 향상시킬 수 있다고 보고되었지만, 이러한 방법들은 특정 코돈을 많이 쓰거나 GC 비율을 맞추는 식으로 서열의 일부 요소만 조정하기 때문에, mRNA 전체에서 나타나는 구조적 상호작용이나 긴 거리의 서열 관계까지는 충분히 반영하지 못한다.
CAI
해당 생물 종이 선호하는 codon을 얼마나 많이 사용하는지를 나타낸다. 선호코돈은 tRNA가 많아 번역이 빠르게 일어난다.
GC 함량
G와 C는 3개의 수소결합으로 안정적이다.
U 함량
U가 많은 부위는 RNA decay 기작에 더 잘 인식되어 분해되기 쉬워지고, 그 결과 단백질 발현이 낮아질 수 있다
2. 풍부한 맥락 정보를 반영하기 위해 딥러닝 기반 CDS 최적화 모델이 제안되었지만, LSTM은 긴 유전자 서열 처리 능력이 제한적이고 병렬 학습이 어려워 학습 가능한 데이터 규모와 모델의 일반화 성능에 제약이 있다.
3. 구조적 특성을 최적화 목표에 포함하고 동적 계획법(가능한 구조 조합이 매우 많아서 사용한 알고리즘)을 활용해 전역 최적화를 수행한 연구도 보고되었지만, 해당 방법은 이 논문의 제안보다 좋은 성능을 보이지 않았으며, 이 알고리즘은 화학적으로 변형된 mRNA 서열에는 적용되지 않아 치료용 mRNA 설계에서 효과가 제한된다.
4. 5'UTR의 de novo 설계 역시 5'UTR이 번역을 조절하는 메커니즘이 아직 완전히 밝혀지지 않아 어려운 과제로 남아있다. 최근 5'UTR의 2차 구조 최소화를 기반으로 한 설계 방법을 통해 세포 기반 실험에서 번역 효율 향상을 보였지만, 번역 개시 효율에 영향을 줄 수 있는 MRL이나 UTR-CDS 상호작용과 같은 요소는 고려되지 않았다.
5. 일부 연구에서는 먼저 라벨링된 데이터로 예측 모델을 학습한 뒤 이를 유전 알고리즘과 결합하여 5'UTR을 개선하는 머신러닝 기반 접근법이 제안되었지만 이 방법은 예측 모델의 신뢰도에 크게 의존하며, 진화 알고리즘은 지역 최적해에 빠질 가능성이 있다.
de novo
기준 자연 서열을 수정하는 것이 아닌 완전히 새로운 서열을 처음부터 생성하는 것
MRL
하나의 mRNA 분자에 평균적으로 몇 개의 리보솜이 붙어 있는지를 나타내는 값
인간 언어와 유전 언어 간의 유사성에 착안하여 텍스트생성 모델의 개념과 구조를 mRNA 설계에 적용했다. 이를 통해 설계된 모델이 이 논문에서 개발한 GEMORNA이다.

GEMORNA를 통해 매우 방대한 설계 공간을 고성능 설계 공간에 위치하도록한 뒤, in vitro 및 in vivo 실험 검증을 통해 hit space에 도달한다.
이제 GEMORNA 구조를 자세하게 살펴보자.
GEMORNA-CDS

단백질 서열을 소스로 mRNA CDS를 타겟으로 간주하고, 트랜스포머 아키텍처를 적용하였다
- 인코더 모듈은 단백질 정보를 처리
- 디코더 모듈은 CDS 서열을 생성한다
학습 과정에서는 자연 CDS 서열을 토큰화한 뒤 causal mask를 적용하여 teacher-forcing 방식으로 인코더에 입력하였다. 동시에 디코더는 코돈 확률 분포를 병렬적으로 출력한다. 이후 입력 분포와 출력 분포 사이의 cross-entropy loss를 계산하고 이를 역전파하여 모델 파라미터를 업데이트 하였다.
$$
L(D) = - \frac{1}{\mid D \mid}\sum^{\mid D \mid}_{i=1} \sum^L_{t=1} log P_{\theta}(x^i_t \mid x^i_{<t},y^i)
$$
모델이 예측한 코돈이 실제 정답 코돈과 가까워지도록 학습한다.
Cross Attention
$$
Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V
$$
- $Q$ : 디코더의 hidden state
- $K$ : 인코더 output (단백질 임베딩)
- $V$ : 인코더 output (단백질 임베딩)
e.g. 단백질 길이 ($L_p$) = 300, 현재 생성 중인 CDS 길이 ($L_c$) = 120, 임베딩 차원($d$) = 512
1. 단백질 서열은 인코더 통과 후 $H = (h_1, h_2, ..., h_300)$이 되고 $K = V = (300 \times 512)$
2. 디코더 내부 표현은 현재까지 생성된 CDS 길이에 따라 $Q = (120 \times 512)$
3. 이제 attention을 계산 $QK^T = (120 \times 512)(512 \times 300) = (120 \times 300)$인 행렬이 생성된다. 이 행렬은 각 CDS 위치가 각 아미노산 위치를 얼마나 참고할지를 의미한다.
4. 마지막으로 V를 곱하면 $(120 \times 300)(300 \times 512) = (120 \times 512)$로 디코도 표현과 동일한 형태를 유지하게 된다. 하지만 이전과 다르게 단백질 정보를 반영한 CDS 표현이다

teacher-forcing 디코딩 대신 autoregressive decoding을 사용한다. 이때 sampling, greedy search, beam search 같은 전략을 사용하였다. 이를 통해 다양한 CDS 서열을 생성하였다.
- Greedy : 가장 확률이 높은 것을 선택
- Sampling : 확률에 따라 랜덤으로 선택한다 (높은 확률일 수록 선택될 확률이 높다)
- Beam : 항상 k개 후보를 유지하도록 한다. ( top-k 선택)
Teacher forcing
입력은 정답 토큰으로 제공하고 모델이 현재 위치의 토큰을 예측하도록 하고, 그 예측값이 실제 정답 토큰과 같아지도록 cross-entropy loss를 통해 파라미터를 업데이트
e.g. input : <s> AUG CAG GCA , output : AUG CAG GCA
입력이 <s> AUG 일 때 현재 토큰을 TGC로 예측했더라도, 다음 입력은 정답인 <s> AUG CAG가 들어가야함
Autoregressive
다음 토큰을 예측할 때 모델이 이전에 스스로 생성한 토큰을 입력으로 사용(Teacher forcing은 생성한 토큰이 아닌 정답 토큰을 넣었다.)
이제 생성된 CDS를 분석한 결과를 봐보자.

GEMORNA는 별도의 규칙 기반 필터 없이도 mRNA에 유리한 코돈 사용 패턴과 뉴클레오타이드 조성을 자동으로 학습하였으며 번역 효율 향상, 원치 않는 선천면역 반응을 최소화할 수 있는 가능성을 보여준다.
Unwanted codon pair
리보솜은 코돈을 연속으로 읽는다. 각각의 코돈이 개별적으로 나쁘지 않아도 둘이 연속해서 붙으면 번역에 불리할 수 있다.
CSC (codon stability coefficient)
해당 코돈이 많을수록 mRNA 반감기가 길어지는 경향이 있는지를 나타내는 지표
Slippery site
리보솜이 미끄러지기 쉬운 서열, 리보솜이 mRNA를 읽는 reading frame을 유지하지 못하고 한 칸 밀려서 읽어버릴 위험이 높은 서열 패턴
MFE(minimum free energy)
주어진 RNA 서열이 접힐 수 있는 구조 중 가장 안정한 구조의 에너지 값으로 작을수록 안정하다.

GEMORNA가 좋은 성능을 보이고 있으며, Natural이 Random보다 우측 상단 방향으로 이동해 있는것이 보일 것이다. 이는 포유류 mRNA 서열이 특정 방향으로 적응적으로 진화했음을 반영한다. 또한 LinearDesign 알고리즘으로 생성된 CDS는 대부분의그래프에서 다른 특성(위치)를 보이며 이는 Natural 패턴과 다른 방향으로 작동함을 보여준다.

여러 특징(x축) 중에서 어떤 것이 실제 발현량(y축)과 가장 관련이 있는지를 비교한 표이다. naturalness가 가장 높은 상관관계를 보였으며 이는 [그림1]에서 GEMORNA가 높은 naturalness를 보여주었고 이는 GEMORNA의 설계 전략이 실제 성능 향상으로 이어질 수 있음을 보여준다.
m1Ψ
U와 비슷하게 읽히지만 면역 자극은 덜 하고 번역은더 잘되도록 만든 U
초기 발현량을 높게 만들 수 있지만, 이 발현량이 얼마나 오래 지속되는지도 중요하다. GEMORNA가 만든 CDS가 얼마나 오래 지속되는 발현을 가지는지를 조사했다.

왼쪽 그래프는 세포 안에서 luciferase 단백질이 단백질이 얼마나 만들어졌는지 즉 CDS 성능을 보여준다. 확연하게 GEMORNA가 생성한 CDS의 성능이 좋음을 볼 수 있다.
오른쪽 그래프는 Normalized Fluc Activity = 48시간 발현량 / 24시간 발현량으로 시간이 지나도 발현이 얼마나 유지되는지를 나타낸다. GEMORNA가 생성한 CDS가 시간이 지나도 발현량이 지속되는 것을 확인할 수 있다.
오른쪽 이미지에서 점이 3개인 이유는 동일한 조건의 실험을 독립적으로 3번 반복한 결과를 표시한 것이다.
GEMORNA UTR
mRNA CDS 자체뿐 아니라 CDS를 둘러싸고 있는 UTR 서열 역시 발현 수준과 mRNA 안정성을 조절함으로써 mRNA 치료제와 백신 성능에 중요한 역할을 한다.
UTR은 단백질 서열과 직접적인 대응관계가 없으므로 디코더를 적층한 구조로 사용하여 GEMORNA UTR 모델을 구축하였다.

그래서 손실함수를 보면 CDS와 달리 y(단백질)가 없다. 여기서도 동일하게 입력으로는 정답 서열이 들어가고 출력(예측값)과 정답 토큰이 동일하게 되도록 학습이 된다.

추론 단계는 다른게 없으니 굳이 설명하지 않겟다. 모르겠으면 CDS 추론 단계쪽을 다시 보자.
여기서 주목해야 할 점은 CDS와 달리 UTR 모델은 서로 다른 학습 방식을 적용한다는 것이다.
- GEMORNA-CDS는 별도의 미세조정 없이 학습되었으며, 편향된 sampling(Greedy) 전략을 추론 단계에서 적용하여 원하는 특성과 높은 성능의 CDS를 생성하였다
- GEMORNA-UTR는 자연 UTR 데이터셋에서 특정 기능적 서열 패턴, 문맥 의존적 모티프, 기능적 특성이다양하거나 희소하게 분포되어 있어 이를 효과적으로 학습하기 위해 미세조정 과정이 필요하다.
GEMORNA-UTR 학습과정을 좀 더 자세하게 보자면 먼저 자연 UTR 서열을 이용해 사전학습하여 자연 유전자 서열에 내재된 암묵적 규칙을 모방하고 학습한다. 이후 번역 효율 또는 안정성이 높은 선별된 자연 UTR 서열을 이용해 추가적인 미세조정을 수행한다.
미세조정을 위해 MRL 값이 높은 5'UTR 서열을 사용하였다. 이때 MRL 예측 모델을 구축하고, 해당 모델을 기반으로 미세조정에 사용할 5'UTR을 선별하였다.

마찬가지로, 3'UTR이 기여하는 안정성을 예측하는 모델도 구축하여 미세조정에서 사용할 3'UTR 서열을 선별하였다.
Pred-5UTR : MRL prediction model for 5'UTR
단방향 GRU 두 개 층으로 구성되어 있으며, 두 층의 최종 상태를 concatenate한 뒤 완전 연결층에 입력하도록 설계되었다. 짧은 서열은 오른쪽 방향으로 padding을 추가하였다
Pred-3UTR : Stability prediction model for 3'URT
TextCNN 기반 모델을 학습하였고, 각 서열의 분해 속도가 기준값으로 사용되었다.

GEMORNA가 생성한 UTR이높은 MRL, MFE, 그리고 향상된 단백질 발현을 보이는 것을 확인할 수 있다.

5'UTR의 효과만을 평가하기 위해 표적 단백질로 Fluc2P를 사용하고, 모든 실험 구성에서 CDS와 3'UTR은 동일하게 유지하였다 (CDS와 3'UTR도 바꾸면 연관 효과까지 고려해야하니까, 5'UTR만 보기위해서).
오른쪽 그림에서 보듯이 GEMORNA가 생성한 총 12개의 5'UTR 중에서 5개가 BNT162b2보다 더 높은 Fluc 활성을 보였다.

또한 HepG2 세포에서의 5'UTR 성능은 HEK293T 세포 결과와 높은 상관관계를 보였고 이는 특정 세포주에만 국한되는 것이 아니라 다른 세포주에서도 5'UTR이 번역 효율을 높이는 효과가 일관되게 유지한다는 것을 보여준다.
마찬가지로 GEMORNA로 10개의 3'UTR을 설계하고 이를 비교하였다.

결과를 보면 GEMORNA와 비교군을 포함한 많은 서열이 유사한 발현 수준을 보였고 이는 3'UTR이 번역 효율에서 상대적으로 보조적인 역할을 하기 때문이라고 논문에서 해석한다. 그러나 10개 중 8개의 GEMORNA 3'UTR이 BNT162b2의 3'UTR과 동등하거나 더 우수한 성능을 나타내었고, de novo 설계가 가능한 유효한 대안임을 보여준다.
Fluc2P
reporter protein으로 단백질 자체의 기능이 아닌 발현량을 측정하는 것이 목적이므로 사용하였다.
5'UTR과 3'UTR의 조합이 발현 수준에 어떤 영향을 미치는지를 실험하였다.

5'UTR과 3'UTR의 관계를 분석하기 위해, Fluc2P reporter와 CD19 CAR를 각각 암호화하는 두 종류의 CDS를 사용하고, CDS를 고정한 상태에서 다양한 5'UTR-3'UTR 조합의 효과를 평가하였다.
CAR
암세포를 더 잘 찾도록 만든 인공 수용체 단백질
구체적으로 8개의 5'UTR 11개의 서로 다른 3'UTR을 조합하여, 동일한 5'UTR을 공유하는 8개의 그룹을 구성하였다.

전체적으로 80% 이상의 UTR 조합이 BNT162b2 기준 UTR 대비 향상된 발현 수준을 보였다.

[그림6] 오른쪽 이미지에서 나타난 5'UTR 성능 결과와 밀접하게 일치함을 확인할 수 있다. 동일 그룹 내에서 서로 다른 3'UTR이 발현 수준에 변동을 유도했고, 발현 수준이 높을수록 변동 폭이 더 크게 나타났다. 이는 3'UTR이 mRNA 안정성, 세포 내 위치, 5'UTR과의 상호작용에 관여하기 때문으로 해석된다.
5'UTR과 3'UTR이 발현 수준에 기여하는 정도를 추가적으로 분석하기 위해 다음과 같은 비교를 수행하였다

동일한 5'UTR을 유지하고 3'UTR만 변화시킨 그룹의 평균 fold-change
동일한 5'UTR을 BNT162b2 3'UTR과 조합했을 때의 fold-change
이 두값을 비교한 결과, 두 조건 간에 상관관계가 관찰되었으며 이는 발현 조절에서 5'UTR이 주요 결정 요인임을 시사한다. 즉 같은 5'UTR이면 어떤 3'UTR을 붙여도 발현량 수준이 거의 유지됨을 나타낸다.
fold-change
변화 후 값 / 변화 전 값 으로 기준 대비 얼마나 증가했는지 감소했는지를 나타낸다.
그러나 동일한 UTR 조합이 서로 다른 단백질 표적에서 일관된 성능을 보이지는 않았다.

이는 UTR에 의한 발현 조절이 단백질 표적에 강하게 의존함을 의미하며, 보편적으로 최적인 UTR 조합이 존재하기 어려움을 시사한다.
Full-length mRNA design with GEMORNA
앞 실험들을 통해서 GEMORNA가 생성한 CDS, UTR이 다양한 기준 서열과 비교했을 때 in vitro 번역 효율이 높다는 것을 확인할 수 있었다.
이제 GEMORNA 요소들로 구성된 full-length mRNA 설계가 단백질 발현을 추가적으로 향상시키고, mRNA 백신에서 면역원성까지 개선할 수 있는지를 평가해보자.
이를 위해서 mRNA가 생성해야할 단백질(표적 단백질)을 네 가지로 나눴다.

[그림4]에서 GEMORNA CDS 중 가장 높은 번역 효율을 보인 GMR-FL2과 검증된 GEMORNA UTR 중에서 3개의 5'UTR, 3개의 3'UTR을 무작위로 선택하여 5개의 서로 다른 UTR 조합을 full-lenght mRNA 설계에 적용했다.
이후 두 기준 mRNA와 비교했다
- Benchmark-FL1 : IDT에서 설계한 CDS + 자연 alpha globin UTR
- Benchmark-FL2 : pGL4.11 CDS + BNT162b2 UTR

실험 결과를 보면, 모든 GEMORNA 설계 서열은 기준 mRNA 보다 높았으며, 특히 48시점에서 더 큰 향상 효과가 관찰되었다. 또한 단백질 발현 향상 효과는 HepG2 세포에서도 동일하게 관찰되었다 ( [그림12]는 조합이 다르다는 거고, [그림14]는 발현 패턴이 비슷하다를 의미한다).
추가로 GEMORNA 모델을 COVID-19 mRNA 백신용 합성 CDS에 적용하여 추가 검증을 수행하였다.

위 그래프에서 볼 수 있듯이 GEMORNA가 생성한 CDS는 다른 것 보다 우수한 성능을 보여주었다. 이러한 성능은 GEMORNA CDS와 GEMORNA UTR을 조합한 결과에서 훨씬 두드러지게 나타났다.
다음으로 full-length 설계의 면역원성을 기준 서열과 비교 평가하였다. 이를 위해 LNP로 캡슐화된 mRNA를 각 서열별로 마우스 5마리씩에 주입했다.


실험 결과, GEMORNA 기반 full-length mRNA는 면역 후 여러 시간 지점에서 높은 항체 역가를 유도하였다.
만약 최적의 CDS를 먼저 선별하지 않고도 우수한 full-length mRNA를 직접 설계하고 실험적으로 검증할 수 있다면 mRNA 개발 과정을 크게 가속화할 수 있다. 이를 검증하기 위해 5개의 GEMORNA CDS와 3개의 GEMORNA UTR 조합을 결합하여 무작위로 7개의 full-length mRNA 설계를 생성하였다.

NanoLuc luciferase reporter의경우, GEMORNA로 설계된 mRNA가 문헌에서 제시된 CDS와 BNT162b2 UTR을 사용한 강력한 기준 서열 보다 더 높은 발현 수준을 나타냈다.

EPO의 경우, 무작위 7개 GEMORNA 설계 mRNA를 코돈 최적화 CDS와 BNT162b2 UTR로 구성된 기준 서열과 비교했다. 7개 중 6개 설계에서 EPO 활성 증가가 확인되 었다. 특히 GMR-EPO-F6는 기준 서열보다 더 오래 지속되는 발현을 보였다

또한 GEMORNA 설계는 HepG2 세포에서도 더 높은 발현 수준을 나타냈다. 이후 in vitro에서 가장 높게 발현을 보인 3개의 EPO 설계를 선별하여 in vivo 검증을 수행했고. 그 결과 GEMORNA 서열은 마우스에서 기준 서열보다 더 높은 발현 수준과 더 긴 지속시간을 보였다.
Circular RNA design with GEMORNA
circRNA는 말단이 없어 선형 RNA에 비해 끝에서부터 뉴클레오타이드를 제거하는 exonuclease에 대한 저항성이 높다.
이전 연구에서 최적화된 topology, 선별된 UTR, 그리고 engineered IRES를 활용하면 circRNA 발현이 향상될 수 있음이 보고된 바에 따라 단순화된 topology를 유지하면서도 AI 생성 CDS와 선별도니 IRES를 결합하면 circRNA 성능을 더욱 향상시킬 수 있다고 가정한다.

IRES
원형 RNA는 Cap이 없어 리보솜이 mRNA의 중간 위치 내부에서 직접 결합하여 번역을 시작할 수 있도록하는 RNA 서열 구조

위 결과를 통해 GEMORNA 설계 circRNA는 누적 NanoLuc 발현 수준 증가, 높은 발현 지속성을 보였다.
또한 EPO를 암호화하는 circRNA에 대해서도 평가를 수행했다.

이후 in vitro에서 높은 번역효율을 보인 3개의 GEMORNA circRNA를 선별하여 in vivo 실험을 수행하였다.

그 결과 세 가지 모두 기준 대비 24시간 시점에서 더 높은 EPO 발현 수준을 보였다.
mRNA 백신의 성공 이후, in vivo CD19 CAR T 치료에 mRNA 기술을 적용하려는 관심이 증가하고 있으며 현재 임상시험에서도 평가되고 있다. GEMORNA 기반 circRNA의 지속성 및 치료 잠재력을 평가하기 위해 비바이러스 CD19 CAR T 세포 실험을 수행하였다.


그 결과 GEMORNA circRNA는 전기천공 24시간 후 높은 유전자 발현 수준을 나타냈다.

또한 전기천공 120시간 후에도 GEMORNA circRNA 처리 세포의 50%가 CD19 CAR 양성 상태를 유지한 반면, 기준 circRNA는 72시간 이전에 감소하였다.
추가로 인간 1차 T 세포에서 NALM-6 세포에 대한 세포독성을 평가한 결과

GEMORNA 설계 circRNA는 NALM-6 세포를 효과적으로 제거한 반면, 코돈 최적화 기준 서열은 거의 세포 독성 효과를 보이지 않았다.
이러한 결과는 생성형 AI로 설계된 circRNA가 in vitro 환경에서 CD19 CAR T 세포의 종양 제거 능력을 효과적으로 향상시킬 수 있으며, 향후 in vivo CAR T 치료에도 활용 가능성이 있음을 시사한다.
Discussion
GEMORNA는 기존 RNA 언어 모델들이 주로 서열의 특성을 예측하는 데 초점을 맞춘 것과 달리, 고품질 mRNA 구성 요소를 직접 생성하기 위한 생성형 모델로 설계되었으며, 특히 circRNA 설계에서도 장기간 발현을 크게 향상시키는 성능을 보였다. 또한 상용 서열과 최신 설계 방법들과의 비교에서도 발현 수준, 안정성, 면역원성 측면에서 우수한 결과를 나타냈다. 다만 외래 mRNA의 발현 및 안정성에 대한 대규모 실험 데이터가 추가로 확보된다면 모델 성능은 더욱 향상될 수 있으며, 조직 특이적 또는 질병 특이적 설계에 특화된 모델로 확장될 가능성도 있다. 한편 GEMORNA는 딥러닝 기반 모델 특성상 내부에서 어떤 특징을 학습했는지 해석이 어려운 블랙박스 한계를 가지므로, 번역 및 RNA 분해 메커니즘에 대한 추가적인 생물학적 이해와 함께 후속 검증이 필요하다. 이러한 점에도 불구하고 GEMORNA는 mRNA 백신과 치료제 개발을 가속화할 수 있는 효과적인 새로운 mRNA 서열 설계 전략으로 제시된다.