이 기사는 2025년 11월 10일 13:44 thebell 에 표출된 기사입니다.
빅데이터 분석 인공지능(AI) 기업 에스투더블유(S2W)는 대규모언어모델(LLM) 토큰화 구조의 근본적 취약점을 규명한 S2W 및 한국과학기술원(KAIST) 공동연구팀 논문이 세계 최고 권위의 자연어처리(NLP) 학회 '자연어처리방법론학회(EMNLP) 2025'에 채택됐다고 10일 밝혔다.S2W에 따르면 EMNLP는 전산언어학학회(ACL), 북미전산언어학학회(NAACL)와 함께 자연어처리(NLP) 분야의 세계 3대 학술대회 중 하나로 꼽힌다. 앞서 S2W는 다크웹 언어 관련(2022년) 및 자체 개발 사이버보안 문서 특화 언어모델 '사이버튠(CyBERTuned)' 관련 논문(2024년)으로 NAACL에서 두 차례 논문을 발표했다. 2023년에는 독자 개발한 다크웹 도메인 특화 언어모델 '다크버트(DarkBERT)' 관련 논문을 통해 ACL에 채택된 바 있다.

S2W 연구진이 이번에 발표한 것은 LLM 내부의 처리 기능 중 하나로 문장 분석 과정에서 문자를 분절해 처리하는 도구인 '토크나이저(Tokenizer)'가 환각을 유발할 수 있다는 내용이다. 특히 LLM이 비영어권 언어로 활용되는 경우 토크나이저가 일부 문자를 완전히 쪼개지 못해 해석되지 못한 채 '불완전 토큰'으로 남는 현상을 주목했다.
영어는 한 글자가 1바이트(byte)로 구성되지만 한국어, 일본어, 중국어 등은 한 글자가 여러 바이트로 표현된다. 이 때문에 바이트 페어 인코딩(BPE) 기반 토크나이저는 문자를 바이트 단위로 분해하는 과정에서 글자의 중간이 잘린 불완전 토큰을 생성하기 쉽다. 이러한 구조적 한계가 비영어권에서의 의미 복원 실패나 문맥 왜곡으로 이어져, 환각 발생률을 높이는 요인으로 작용할 수 있는 것이다.
논문의 공동저자로 참여한 박근태 S2W 최고기술책임자(CTO)는 "본 논문은 각국이 자국 언어와 데이터를 기반으로 AI를 개발·운영해야 하는 소버린(Sovereign) AI에 관한 논의에 유의미한 시사점을 제공한다"며 "S2W는 신뢰할 수 있는 AI를 만들기 위한 가장 선도적인 연구 성과를 지속 창출할 계획"이라고 말했다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >
관련기사
best clicks
최신뉴스 in 전체기사
-
- [현장 줌인]김학균호 VC협회, 출범 첫 해 '회수시장 활성화' 집중
- [현장 줌인]한성숙 중기부 장관 "내년엔 더 과감한 VC 투자 기대"
- [i-point]덕산하이메탈, '2025 중견기업 성장탑' 수상
- [영상]엔씨 창업 신화와 부진, 갈림길에 선 김택진과 홍원준
- [코스닥 상장사 매물 분석]모비스 품는 혁신자산운용, 300억 현금곳간 활용 관심
- [현장 스토리]케이사인 "암호키 관리 솔루션 도입 '보안 강화'"
- [i-point]테크랩스, 운세 플랫폼 '점신' 신규 서비스 출시
- [i-point]한컴라이프케어, 185억 규모 K5 방독면 공급 계약 체결
- 농협금융에도 이어진 쇄신…지주 부사장 2인 교체
- [신한금융 차기 리더는]투명성·공정성 제고, 진옥동 연임 '정당성' 확보했다
이종현 기자의 다른 기사 보기
-
- [i-point]테크랩스, 운세 플랫폼 '점신' 신규 서비스 출시
- [i-point]한컴라이프케어, 185억 규모 K5 방독면 공급 계약 체결
- [i-point]가온그룹, 최대주주·특수관계자 주식 장내매수
- [i-point]SMAG엔터, IP 통합 '더티니핑' 공식 론칭
- [페스카로 IPO]일반청약 경쟁률 1430대 1 '증거금 3.6조'
- [Company Watch]세림B&G, 로보틱스 진출 원년 '성장세'
- [Company Watch]E8, 세종·부산 스마트시티 사업 재개에 반등 '촉각'
- [Company Watch]'보안강화 수요' 라온시큐어, 3분기 흑자 전환
- [페스카로 IPO]공모가 최상단 확정, 자동차 보안 경쟁력 입증
- 인베니아의 아쉬운 증자 타이밍





















