[신테카바이오 암정복 '미니 스타게이트']AI 신약개발의 진화, 빅테크 뛰어든 'LLM' 기술 검증 마쳤다①3D 입체구조를 언어화해 100억개 화합물 동시 분석, 검증 마치며 정확도↑
정새임 기자공개 2025-12-02 08:26:41
[편집자주]
도널드 트럼프 미국 대통령은 연초 인공지능(AI) 인프라를 구축해 암 조기 진단과 맞춤형 암 백신을 개발하는 일명 '스타게이트' 프로젝트를 발표했다. 오픈AI, 소프트뱅크, 오라클 등이 참여해 최대 700조원을 투입하는 대규모 프로젝트다. 이는 암 정복에 있어 AI가 필수불가결의 요소로 자리잡고 있음을 시사한다. 신테카바이오 역시 AI 기술 발전에 따라 선제적으로 슈퍼컴퓨팅 센터를 구축하고 차별화된 LLM 기반 AI 모델로 차별화된 경쟁력을 갖춰나가고 있다. 더벨은 신테카바이오의 AI 신약 개발 기술력과 사업성을 들여다봤다.
이 기사는 2025년 12월 01일 11:03 thebell 에 표출된 기사입니다.
제약바이오 시장에서 AI 신약 개발은 한때 '트렌디'하고 '잠재성'이 높은 테마였지만 그 열기가 오래가진 못했다. 오픈 소스를 기반으로 기업마다 차별화를 두기 어려웠던데다 시장성도 불분명했기 때문이다. AI로 발굴한 신약이 허가받은 사례도 없어 일각에선 'AI 거품론'이 일기도 했다. 실제 국내 많은 AI 신약 개발 기업들은 제대로 매출을 내지 못해 고전을 면치 못했다.하지만 AI 기술 고도화로 데이터의 분석과 단순 예측을 넘어 생성형 시대로 진입하면서 AI 신약 개발 역시 패러다임의 전환을 맞이하고 있다. 그 중 하나가 3D 구조를 기반으로 분석하던 단백질과 약물의 결합 예측을 '거대 언어 모델(LLM)'로 변환하는 전략이다.
글로벌 빅테크 기업들이 이제 막 LLM 방식의 AI 신약 개발 기술 확보에 나선 현 시점에서 일찍이 변화에 뛰어든 곳이 있다. 신테카바이오는 이미 3D 구조를 LLM으로 변환한 플랫폼을 구축해 최근 생성형 AI로 검증하는 작업까지 마쳤다.
◇단백질-약물 결합 구조를 '문장'으로 표현, GPT로 검증
신테카바이오의 핵심 AI 기반 신약 후보물질 발굴 플랫폼 중 합성신약 플랫폼은 3bm-GPT 모델을 핵심 기술로 사용한다. 3bm-GPT는 챗GPT와 같은 LLM의 구조를 신약 개발에 접목한 기술이다.
기존 AI 신약 개발은 단백질과 약물이 결합하는 구조를 3차원으로 분석해 결합을 예측해왔다. 신테카바이오의 3bm-GPT는 복잡한 3D 입체 구조를 '문장(Text)'으로 풀어 AI에 학습시킨 것이 특징이다.

물질과 단백질이 결합할 수 있는 위치를 각 단어로 치환해 하나의 결합을 25~30개 정도의 단어로 구성된 문장으로 변환한다. 이를 알고리즘화 한 뒤 방대한 데이터로 시뮬레이션을 돌리면서 약 6000만개의 학습 가능한 문장 데이터를 생성했다.
최근까지도 3bm-GPT를 고도화 하면서 챗GPT 등 생성형AI를 통해 검증하는 연구를 진행했다. 이달 국제 SCI 학술지 'MDPI Molecules' 30주년 특별판에 게재된 연구 결과다. 3차원 분자 결합 정보를 언어 형태로 변환해 적용한 사례는 매우 드물었다.
대표적인 모델인 BERT와 GPT에게 데이터를 학습시켜 예측한 결과가 실제 데이터베이스와 얼마나 부합하는지 비교한 결과, 문장만 학습해도 단백질과 약물 간 결합 패턴을 잘 파악하고 실제 결합 여부를 상당히 높은 정확도로 예측했다. GPT 모델은 인접 단어 예측에서 약 95%의 높은 정확도를 기록했고 단백질의 3D 구조 없이 문장으로 치환된 정보 만으로도 결합과 관련된 연관 단어를 약 85%의 정확도로 예측할 수 있었다.
또 AI가 생성한 데이터를 어떻게 그룹화(클러스터링) 하는지 분석한 결과 비슷한 표적 단백질끼리 자연스럽게 같은 그룹을 형성함을 관찰했다. 이는 텍스트만으로도 결합 유형별로 의미를 구별함으로써 결합 패턴의 특징을 실질적으로 이해하고 있음을 의미한다. AI가 그룹화한 결과는 실제 생화학 특성과도 상당히 일치했다.
◇압도적인 데이터 처리양, 선제적인 경쟁력 확보
3D 구조를 언어화 해서 분석하는 복잡한 과정을 거치는 이유는 압도적인 데이터 처리 효율성 때문이다. 기존 3D 시뮬레이션 방식은 정확도는 높지만 3차원 공간 좌표를 계산하기 위해 막대한 연산량이 필요하다. 마치 내비게이션이 길을 찾을 때 도로의 모든 풍경을 3D 그래픽으로 렌더링해 계산하는 것과 같아 속도가 느릴 수밖에 없다.
반면 신테카바이오 방식은 이를 '텍스트'로 압축하는 과정이다. 3차원 입체 정보를 1차원 언어 데이터로 변환하면 정보의 용량은 수백, 수천 분의 일로 가벼워지면서도 핵심적인 물리화학적 결합 특성은 그대로 보존된다.

데이터가 가벼워진다는 것은 동일한 시간과 슈퍼컴퓨팅 자원으로 경쟁사 대비 훨씬 방대한 데이터를 처리할 수 있음을 의미한다. 기존 방식이 물리적 한계로 수백만 개의 화합물을 탐색하는 데 그쳤다면 LLM 기반 모델은 수십억 개 규모의 화합물 라이브러리를 고속으로 스크리닝할 수 있다. 모래사장에서 바늘 찾기와 같은 신약개발 경쟁에서 탐색의 범위와 속도 자체가 달라지는 셈이다.
최근 바이오 분야에 LLM을 적용하려는 움직임이 활발해지고 있지만 아직까지는 초기 단계로 알려졌다. 신테카바이오는 빠르게 3D 구조를 언어화 하는 작업을 오랜기간에 걸쳐 진행하면서 선제적으로 경쟁력을 쌓아왔다. 최근 3bm-GPT 연구 결과까지 발표하면서 기술적인 검증까지 마쳤다고 보고 있다.
신테카바이오 관계자는"100억개의 화합물을 3D구조로 돌릴 경우 막대한 양의 슈퍼컴퓨팅 파워가 필요해 실제 돌릴 수 있는 화합물의 양은 몇백만개 정도에 불과한데 신테카바이오의 경우 LLM 변환으로 100억개의 화합물을 모두 돌릴 수 있어 우월한 결과를 도출할 수 있다"며 "이번 연구로 핵심 플랫폼의 앞단에서의 결합 분석을 SCI급 논문을 통해 검증을 받게된 것"이라고 말했다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >
관련기사
best clicks
최신뉴스 in 인더스트리
-
- [영상]셀트리온, 합병 쇼크 끝? 숫자가 말해주는 변화
- [i-point]엔켐 "2030년 총 공급량 100만톤 목표"
- [i-point]대동, 자율주행 운반로봇·콤바인 신기술 인증 획득
- [JPM 컨퍼런스 2026]글로벌 바이오 축제 개막…스탠더드 된 비만, 화두는 'AI'
- [i-point]아이들, 중국 광둥성서 미디어 전시회 개최
- [보안·SW기업 IPO 그후]와이즈넛, '재료' 사라지자 제자리로 돌아간 주가
- [캐리소프트 IPO 그후]키즈 중심 한계 탈피 선언, 종합 콘텐츠 승부수 통할까
- '9년만 분기 적자' LG전자, 역대급 매출 주목
- [2026 엔터산업 지형도]JYP, 흔들림 없는 성장 궤도…저연차 IP 결실 맺나
- NXC, 한국형 국부펀드의 '핵심자산' 되나
정새임 기자의 다른 기사 보기
-
- [제약바이오 시총분석]오름테라퓨틱, 데이터 아닌 'CPS 프리미엄'에 투심 반응
- [이뮨온시아 '국산 면역항암제' 도전기]"NK/T 림프종 생존기간 7배로" 의료진도 놀란 효능
- 유한양행 '제2의 렉라자'로 부상, 항암 전진기지로 우뚝
- [이뮨온시아 '국산 면역항암제' 도전기]'희귀약' 지정 쾌거, 2상으로 '정식 허가' 목표 성큼
- [2026 바이오텍 CEO 시장 전망]코스닥 다산다사 정책 '신뢰회복 기회'…생존부담도 공존
- [2026 바이오텍 CEO 시장 전망]법차손 압도한 메가펀드 기대감, 자금지원 필요성 강조
- [2026 승부수]'홀로서기' 삼성바이오에피스, 직판·신약 '새 도전' 강조
- [클리니컬 리포트]넥스아이, '온코카인' 기전 후속 신약도 본임상 진입
- [thebell note]건보재정에 드리운 '죽음의 순환고리'
- [2025 제약바이오 마켓리뷰]'조단위 빅딜' 쏟아진 기술이전 거래, 양질 모두 잡았다






















