AI바라기의 인공지능

개념 설명 : Multiple Sequence Alignment 본문

논문리뷰

개념 설명 : Multiple Sequence Alignment

AI바라기 2026. 4. 7. 15:57

0. 먼저 한 줄 정의

MSA는 “서로 비슷한 단백질 서열들을 여러 개 모아서, 진화적으로 같은 위치끼리 줄 맞춰 놓은 것”입니다.

여기서 핵심은 그냥 줄을 예쁘게 맞추는 게 아니라, “같은 역할을 하는 자리끼리 비교하려는 것”입니다.

1. 왜 이런 게 필요하냐: 단백질 서열은 조금씩 달라도 구조와 기능은 비슷할 수 있음

단백질은 아미노산 서열로 이루어져 있습니다.

예를 들어 아주 짧게 쓰면:

 
단백질 A: MKTWAIL
단백질 B: MKTWVIL
단백질 C: MKTFAIL

이런 식으로 생길 수 있습니다.

겉보기엔 조금씩 다르지만, 이 셋이 사실은 비슷한 조상에서 나온 비슷한 단백질일 수 있습니다. 즉,

  • 어떤 위치는 진화하면서 바뀌어도 괜찮고
  • 어떤 위치는 바뀌면 단백질이 망가지기 때문에 잘 안 바뀝니다.

그래서 여러 종에서 온 비슷한 단백질들을 한꺼번에 비교하면 “어디가 중요한 자리인지”가 보입니다. 이게 MSA를 하는 가장 큰 이유입니다.

2. 먼저 sequence alignment가 뭔지부터

MSA를 이해하려면 먼저 alignment(정렬) 자체를 이해해야 합니다.

정렬이라는 것은 “서열을 그냥 옆에 놓는 게 아니라, 대응되는 위치끼리 맞추는 것”입니다.

예를 들어 두 서열이 있다고 해보겠습니다.

 
A: MKTAAIL
B: MKTAIL

길이가 다르죠. 그런데 진화 과정에서 어떤 아미노산이 하나 빠졌다고 생각하면, 이렇게 맞출 수 있습니다.

 
A: M K T A A I L
B: M K T - A I L

여기서 -는 실제 아미노산이 아니라, 정렬을 위해 넣은 gap(빈칸)입니다.

즉 이 뜻은: “B는 원래 A와 거의 비슷한데, 중간 어딘가의 아미노산 하나가 삭제된 것처럼 보인다”라는 해석입니다.

3. pairwise alignment와 MSA의 차이

  • pairwise alignment: 서열 2개만 맞춥니다.
     
    A: M K T A A I L
    B: M K T - A I L
    
  • MSA: 서열 여러 개를 동시에 맞춥니다.
     
    A: M K T A A I L
    B: M K T - A I L
    C: M K T S A I L
    D: M K T A A V L
    

이제부터는 각 열(column)을 볼 수 있습니다.

예를 들어 1열은 다 M, 2열은 다 K, 3열은 다 T입니다.

그러면 이런 생각을 할 수 있습니다.

  • “아, 앞부분은 매우 중요해서 거의 안 바뀌는구나”
  • 4번째 자리는 A/S/- 이렇게 바뀌기도 하는구나”
  • 6번째 자리는 I나 V 정도는 허용되나 보구나”

즉, 두 개만 보면 잘 안 보이던 패턴이 여러 개를 모으면 보입니다.

4. MSA의 핵심은 “열(column)”이다

MSA를 보면 사실 우리는 가로(row)보다 세로(column)를 봐야 합니다.

예를 들어

 
Seq1: M K T A A I L
Seq2: M K T - A I L
Seq3: M K T S A I L
Seq4: M K T A A V L

이제 열별로 보면:

  • 1열: M, M, M, M
  • 2열: K, K, K, K
  • 3열: T, T, T, T
  • 4열: A, -, S, A
  • 5열: A, A, A, A
  • 6열: I, I, I, V
  • 7열: L, L, L, L

이걸 해석하면:

  • 1~3열: 완전히 보존됨 → 매우 중요할 가능성이 큼
  • 4열: 좀 변동이 있음 → 어느 정도 변이가 허용되는 자리일 수 있음
  • 6열: I와 V만 왔다 갔다 함 → 둘이 성질이 비슷해서 대체 가능할 수 있음

즉 MSA는 사실상 “각 위치마다 진화가 무엇을 허용했고 무엇을 허용하지 않았는지 보는 도구”입니다.

5. 왜 어떤 자리는 안 바뀌고, 어떤 자리는 바뀌나

이건 단백질의 구조와 기능 때문입니다. 단백질 안에는 보통 이런 자리들이 있습니다.

(1) 기능적으로 중요한 자리

예를 들어 효소의 active site 근처.

이런 곳은 특정 아미노산이 꼭 있어야 해서 잘 안 바뀝니다.

예:

 
W
W
W
W
W

이런 식이면 매우 중요한 자리일 수 있습니다.

(2) 구조적으로 중요한 자리

단백질이 접힐 때 중심(core)을 이루는 자리, 혹은 특정 결합을 유지하는 자리.

이런 자리도 잘 안 바뀝니다.

(3) 상대적으로 자유로운 자리

단백질 표면에 있고, 크게 중요한 역할이 없는 자리라면 바뀌어도 큰 문제 없을 수 있습니다.

그래서 MSA에서 많이 흔들리는 열이 생깁니다.

6. gap은 왜 생기나: 삽입과 삭제

MSA에서 -가 자꾸 보이는데, 이건 정렬상 매우 중요합니다.

예를 들어:

 
A: M K T A A I L
B: M K T - A I L
C: M K T S A I L

이건 무슨 뜻이냐면, 진화 과정에서 어떤 종의 단백질은 해당 위치에 아미노산이 생기거나, 어떤 종은 사라졌다는 뜻입니다.

이걸 insertions/deletions(indels)라고 봅니다.

즉 gap은 단순한 빈칸이 아니라, 진화적 변형의 흔적입니다.

7. “비슷한 서열”을 왜 여러 종에서 모으는가

예를 들어 사람 단백질 하나만 보면 정보가 별로 없습니다.

  • Human:
     
    M K T A A I L
    

이것만 보면 “4번째 A가 중요한지 아닌지” 알 수 없습니다.

그런데 비슷한 단백질들을 다른 생물에서 모아보면:

 
Human:   M K T A A I L
Mouse:   M K T A A I L
Dog:     M K T S A I L
Yeast:   M K T - A V L
Fish:    M K T A A I L

이제 보니까:

  • 1, 2, 3, 5, 7번째는 거의 안 바뀜
  • 4, 6번째는 조금 바뀜

이런 식의 패턴이 보입니다.

즉 MSA는 “한 단백질을 보는 게 아니라, 그 단백질 가족 전체를 보는 것”이라고 생각하시면 됩니다.

8. 직관적 비유: 문장 여러 버전 비교

이걸 문장으로 비유하면 쉽습니다.

원문이 있다고 해보겠습니다.

 
THE CAT SITS HERE

세월이 지나며 조금씩 바뀐 여러 버전이 생겼다고 해봅시다.

 
THE CAT SITS HERE
THE BAT SITS HERE
THE CAT SATS HERE
THE CAT SITS THERE

이걸 나란히 놓으면

  • 어떤 부분은 거의 안 바뀌고
  • 어떤 부분은 자주 바뀌고
  • 어떤 변화는 특정 위치에서만 일어나는지
  • 볼 수 있습니다.

단백질도 똑같습니다. MSA는 결국 “진화가 만들어낸 여러 버전의 같은 문장을 비교하는 것”입니다.

9. MSA에서 가장 중요한 개념 1: conservation(보존성)

이제 핵심 개념 하나씩 보겠습니다.

conservation

어떤 열이 거의 안 바뀌는 정도입니다.

예:

 
A: ... W ...
B: ... W ...
C: ... W ...
D: ... W ...

이건 매우 보존된 자리입니다. 의미는 보통:

  • 구조적으로 중요하거나
  • 기능적으로 중요하거나
  • 둘 다 중요하다
  • 입니다.

반대로

 
A: ... A ...
B: ... S ...
C: ... T ...
D: ... G ...

이런 식이면 덜 보존된 자리입니다.

10. 하지만 “완전히 같은가”만 보는 건 아님

여기서 한 단계 더 들어가면, 아미노산은 서로 성질이 비슷한 것들이 있습니다.

예를 들어

  • I, V, L은 모두 소수성이라 비슷한 역할을 하기도 하고
  • D, E는 둘 다 음전하라 서로 어느 정도 대체 가능하기도 합니다.

그래서 MSA를 볼 때는 “문자가 완전히 같으냐”뿐 아니라 “비슷한 성질의 아미노산으로 바뀌었느냐”도 중요합니다.

예를 들어:

 
I
V
L
I

이건 완전 동일하진 않지만 여전히 구조적으로는 꽤 비슷한 자리일 수 있습니다.

11. MSA에서 가장 중요한 개념 2: coevolution(공진화)

이게 정말 중요합니다. 어떤 두 위치가 있다고 해보겠습니다.

  • 위치 $i$
  • 위치 $j$

만약 $i$가 바뀔 때 $j$도 같이 바뀌는 패턴이 여러 종에서 반복되면, 이 둘은 서로 연관돼 있을 가능성이 큽니다.

예를 들어:

 
Seq1: ... A ... F ...
Seq2: ... A ... F ...
Seq3: ... G ... Y ...
Seq4: ... G ... Y ...

  • A가 있을 때는 F
  • G가 있을 때는 Y
  • 처럼 같이 바뀝니다.

왜 이게 중요하냐면, 단백질 3차원 구조에서 이 두 자리가 서로 가까이 붙어 있어서 한쪽이 바뀌면 다른 쪽도 맞춰서 바뀌어야 할 수 있기 때문입니다.

쉽게 말하면: “둘이 서로 맞물리는 부품이라 같이 바뀐다”는 뜻입니다.

12. 구조와의 연결: 왜 공진화가 3D 구조 힌트가 되나

서열상으로는 멀리 떨어져 있어도, 3D로 접히면 가까워질 수 있습니다.

예를 들어 서열 위치 10번과 85번이 있다고 해보겠습니다.

서열상 멀지만, 접힌 뒤에는 서로 붙어 있을 수 있습니다.

그런데 한쪽 아미노산이 바뀌면 다른 쪽도 같이 바뀌는 패턴이 계속 보인다면, 이건 둘이 공간적으로 상호작용할 가능성을 시사합니다.

그래서 MSA는 단순히 “서열 통계”가 아니라, 간접적으로는 3차원 구조 정보까지 담고 있습니다.

13. AlphaFold에서 MSA가 왜 그렇게 중요했는가

이제 AlphaFold 문맥으로 연결해보겠습니다.

단백질 구조 예측은 결국 “이 서열이 어떻게 접힐까?”를 맞히는 문제입니다.

그런데 서열 하나만 보면 애매할 수 있습니다. 예를 들어 한 위치가 A인지 G인지 바뀌어도 되는지, 어떤 두 위치가 서로 연관되는지, 이런 건 서열 하나로는 잘 안 보입니다.

하지만 MSA를 보면

  • 어떤 위치가 강하게 보존되는지
  • 어떤 위치가 함께 바뀌는지
  • 어떤 부분이 유연한지
  • 어떤 부분이 구조적으로 강하게 묶여 있는지
  • 를 알 수 있습니다.

그래서 AlphaFold는 MSA를 통해 진화적 제약 정보를 엄청 많이 끌어옵니다.

즉 AlphaFold 입장에서 MSA는 거의 “이 단백질의 진화 힌트 묶음” 혹은 “구조를 암시하는 통계 압축본” 같은 것입니다.

14. 실제로 MSA를 보면 어떻게 읽어야 하나

간단한 가상 예시를 보겠습니다.

Seq1: M K T A A I L G R
Seq2: M K T A A V L G R
Seq3: M K T S A I L G R
Seq4: M K T - A I L G K
Seq5: M K T A A I L G R

이제 열별로 읽어보겠습니다.

  • 1열: M M M M M (완전 보존 → 중요할 가능성 큼)
  • 2열: K K K K K (완전 보존 → 중요)
  • 3열: T T T T T (완전 보존 → 중요)
  • 4열: A A S - A (조금 흔들림 → 이 자리는 어느 정도 변이가 허용될 수 있음)
  • 5열: A A A A A (매우 중요)
  • 6열: I V I I I (I↔V 정도는 허용되는 듯 → 비슷한 성질의 아미노산이라 대체 가능 가능성)
  • 7열: L L L L L (강하게 보존)
  • 8열: G G G G G (강하게 보존)
  • 9열: R R R K R (거의 보존, 가끔 K로 대체 → 양전하 성질이 유지되는 방향의 보수적 변이일 수 있음)

이렇게 봅니다.

즉 MSA를 읽는다는 건 그냥 글자를 보는 게 아니라 얼마나 보존됐는지, 어떤 종류의 변이가 나는지, gap이 있는지, 서로 연관된 열이 있는지를 보는 것입니다.

15. MSA는 “정답”이 아니라 “추론 도구”다

중요한 점이 하나 있습니다.

MSA를 본다고 해서 무조건 “이 자리는 100% 중요하다” 이렇게 확정되는 건 아닙니다.

왜냐하면:

  • 정렬이 잘못될 수도 있고
  • 데이터 수가 적을 수도 있고
  • 어떤 변이는 우연일 수도 있고
  • 공진화처럼 보여도 사실 간접 상관일 수도 있기 때문입니다.

그래서 MSA는 “강력한 힌트”이지 “절대적인 정답표”는 아닙니다.

하지만 힌트로서는 매우 강력합니다.

16. MSA를 만드는 과정은 대충 어떻게 되나

개념적으로는 이렇습니다.

  • 1단계: 관심 있는 단백질 하나를 정합니다. (예: 사람의 어떤 효소 단백질)
  • 2단계: 비슷한 서열들을 데이터베이스에서 찾습니다. (즉 homologous sequences를 모읍니다)
  • 3단계: 그 서열들을 서로 맞춰 정렬합니다.
  • 4단계: 열별 통계를 봅니다. (어떤 열이 보존되는지, 어디에 gap이 많은지, 어떤 위치쌍이 같이 변하는지)
  • 5단계: 이 정보를 구조 예측, 기능 해석, 돌연변이 영향 분석 등에 씁니다.

17. “homologous sequence”가 왜 중요하냐

MSA에 아무 서열이나 넣으면 안 됩니다.

비슷한 기원을 가진, 즉 homologous한 서열들을 넣어야 합니다.

왜냐하면 MSA는 “진화적으로 같은 자리끼리 비교”하는 것이기 때문입니다.

서로 전혀 관계없는 단백질을 억지로 정렬하면 그건 그냥 문자 맞추기일 뿐이고, 의미 있는 열 비교가 아닙니다.

즉 MSA의 품질은 좋은 homologous sequence를 얼마나 잘 모았느냐에 크게 좌우됩니다.

18. 아주 직관적인 핵심 요약

MSA를 머릿속에 이렇게 넣으시면 됩니다.

  1. 단백질 하나만 보면 정보가 부족합니다.
  2. 비슷한 단백질 여러 개를 모아서 같은 자리끼리 비교합니다.
  3. 그러면 어떤 자리는 잘 안 바뀌고, 어떤 자리는 자주 바뀌는 게 보입니다.
  4. 잘 안 바뀌는 자리는 구조/기능적으로 중요할 가능성이 큽니다.
  5. 서로 같이 바뀌는 위치쌍은 3D에서 가까울 가능성이 있습니다.
  6. 그래서 MSA는 구조 예측과 기능 해석에 매우 강력합니다.

19. 마지막으로, 정말 짧게 다시 압축하면

MSA는 “비슷한 단백질 서열 여러 개를 진화적으로 같은 위치끼리 정렬해서, 각 위치의 중요성과 위치들 사이의 관계를 읽어내는 방법”입니다.

그리고 MSA를 통해 알 수 있는 건 주로:

  • 어떤 위치가 중요하냐
  • 어느 위치는 변해도 되냐
  • 어느 위치들이 서로 연결돼 있냐
  • 구조적으로 어떤 제약이 있냐
  • 입니다.