thebell

전체기사

[THE NEXT]"증권소송, 소장의 '단어'가 합의·기각의 키워드"아담 바다위 교수, 알고리즘 통한 판단은 아직 예측 확률 높지 않아

허인혜 기자공개 2019-09-20 17:40:26

이 기사는 2019년 09월 20일 17:39 thebell 에 표출된 기사입니다.

"증권 집단소송에서는 소장의 '단어'가 합의와 기각의 결과를 도출하는 키워드다. 합의와 기각의 결과는 주식시장에 유의미한 영향을 미친다. 펀드 운용사들이 텍스트 분석을 선제적으로 활용한다면 수익률을 끌어낼 수 있다."

아담 바다위 미국 버클리대학교 교수(사진)는 20일 더벨과 한국기업지배구조원이 '기업지배구조의 현안'을 주제로 공동주최한 '2019 더벨 글로벌 컨퍼런스 THE NEXT'에서 이같이 밝혔다.

증권 집단소송에서 반복되거나 새롭게 등장한 단어가 소송의 결괏값을 예측하는 데에 활용된다는 분석이다. 예를 들어 합의라는 단어는 원고 입장에서는 긍정적이다. 바다위 교수는 "기본적으로는 단어의 수를 카운트한다. 특정 단어가 몇 번 나오고 특정 단어의 결합이 몇 번 나오는 지를 센다"며 "특정 문서에만 나오는 단어에는 가중치를 준다"고 했다.

24
아담 바다위 교수가 20일 서울 밀레니엄 힐튼 호텔에서 열린 '2019 The NEXT 컨퍼런스'에서 발표하고 있다.

이때 단어를 추출하는 문서는 소장이 기본이다. 소장 안에는 원고가 무엇을 주장하는지, 소인은 무엇인지에 대한 중요한 내용이 집약돼 있다는 관점이다. 연구의 기본 데이터값은 스탠퍼드에서 따왔다. 바다위 교수는 "스탠퍼드 지역 집단소송 센터에는 모든 증권소송의 데이터가 집약돼 있다"며 "웹 스크리핑 등의 기술을 통해 소장과 내부의 내용, 예컨대 어디에 제출이 됐는지, 어떤 로펌이 관련됐는지 등의 구조화된 데이터를 추출하는 클리닝 작업을 치렀다"고 부연했다.

증권 소송 결과에 영향을 미치는 단어는 1만5000개 가량이다. 1차 소장에서는 기본적으로 9000개의 단어가, 1차소장 이후 개인이 모여 만든 집단소장에는 2만5000개의 단어가 들어있다. 이 단어들을 대차 비교해 예측 결괏값을 추출한다.

데이터 분석의 정확도를 높이는 기술은 90%의 원본 자료와 10%의 예측이다. 데이터 분석에서 원본 자료만을 100% 활용해 정량화하면 예외값의 영향으로 오히려 정확도가 떨어진다는 이야기다. 바다위 교수는 "좋아할 만한 영화를 100% 예상하기 위해서는 여러분이 본 영화만을 첨부하는 게 아니라, 데이터의 90%만 가져온 뒤 10%를 예측하고 곱하기 10을 해서 10회를 반복하는 방법이어야 정확도가 높아진다"고 설명했다.

소송의 결과가 주가에 반영되는 방식도 연구 영역 중 하나다. 소송이 기각되면 주가에 별다른 영향을 미치지 않지만 합의금을 지급한다면 주가가 급락하는 현상이 일어난다고 바다위 교수는 말했다. 또 1차 소장과 집단 소장의 결과도 주가에 다른 영향을 미친다. 1차 소장은 시장에 알려지지 않은 내용을 담아 주가 변동률이 높지만 집단소송은 새로운 주장이 없다면 주가 그래프를 바꾸지 않는다는 해석이다.

증권 소송 텍스트 연구는 펀드 수익률을 전망하는 데에 쓰일 수 있다는 게 바다위 교수의 주장이다. 소장 속 단어와 결과의 상관관계, 또 증권소송의 결론이 주식시장에 미치는 효과를 교차 분석한다면 펀드 운용사들이 수익을 얻게 된다는 의미다. 바다위 교수는 "다만 알고리즘을 통한 판단은 아직까지 예측 확률이 높지 않고 소장의 내용을 알고리즘에 맞춰 작성할 수도 있어 시장에 바로 적용하기는 빠르다"고 짚었다.

<발표 전문>

집단소송의 결과를 예측하는 데에 소송의 내용이 얼마나 영향을 미치는 지에 대해 연구해 왔다. 앞서 증권 집단소송에 대한 발표가 이미 이뤄져 간략하게만 말하자면, 증권 집단소송은 기본적으로 기업이 허위, 기만적인 진술을 하지 못하는 것을 목표한다. 소송의 근거가 있느냐, 타당한 소송이냐는 우려 역시 연구의 중요한 영역으로 남아있다.

특정 소송의 이유를 추론하는 일은 쉽지 않다. 근거와 원인을 판단하는 과정에서 판사의 판단을 고려해야 하는지, 또 정확한 지에 대한 구분이 선행돼야 한다. 이 분야에 대한 연구는 많이 진행돼 있다. 여기에 개정 공시나 해당 사건에 대한 조사가 여전히 진행되고 있다던지 하는 몇 가지 복잡한 변수들이 존재한다.

학계에서는 데이터 분석을 많이 진행 중이다. 최근에는 소장에 들어있는 텍스트를 분석하고자 한다. 소장 안에는 원고가 무엇을 주장하는지, 소인은 무엇인지가 들어있다. 이처럼 소장은 상당히 중요한 내용을 담는데, 이 소장의 텍스트를 분석하면 해당 소송이 유효한지를 알 수 있는 지를 연구하고자 한다.

합의라는 ‘단어'는 원고 입장에서는 긍정적이다. 만약 합의가 된다면 합의금을 지급하는지, 그렇지 않은 지에 대한 분석이다. 소장 이후에는 집단 소송도 가능한데 머신러닝을 통해 이 분야의 텍스트 분석도 가능하다. 소장 결과를 예측한 뒤에는 주가 수익률과도 비교한다. 소장의 결과가 주가에 어떤 영향을 미치는 지를 본다.

2002년 증권소송 개혁법으로 증권 집단소송의 기준이 더욱 강화된 한편 변호사들의 기준점이 됐다. 해마다 많을 때에는 120건 가량의 증권 집단소송이 연방에 신청된다.

우리가 일상생활에서 e메일이 스팸메일인지 아닌 지를 구분하는 게 머신러닝의 한 단면이다. 머신러닝은 e메일함에 받는 메일을 알고리즘으로 분류한다. 이처럼 공식을 구축해 소장의 합의와 기각 여부를 예측해보자는 의미다. 이를 통해 과도한 증권 연계소송이 이뤄지지 않도록 하는 게 목표다. 증권소송 개혁법도 경쟁적인 소송을 줄여보자는 취지다.

연구 배경은 소송의 절차를 개선하고자 하는 것이었다. 소송의 효과가 있는지 없는 지에 대한 분석이지만 연구의 결과는 아직까지는 다소 모호하다. 기본 목표는 기관투자자의 관여도를 높이자는 것인데, 성공적인지 여부도 가르기 어렵다. 어떤 소송 케이스가 정당한지 아닌지를 시장이 늘 정확히 판단하지는 못하지만, 기각된 소송의 경우 주가가 떨어지지 않아도 합의금이 지급된 소송은 주가가 뚝 떨어지는 것을 볼 수 있다.

데이터 추출은 스탠포드 지역 집단소송 센터에서 따왔다. 모든 증권소송 데이터가 여기에 집합된다. 이 데이터를 가지고 웹 스크리핑을 통해 소장과 내부 내용, 예컨대 어디에 제출됐는지, 어떤 로펌에 관여됐는지 등의 구조화된 데이터를 추출하는 클리닝 작업을 했다.

기본적으로는 단어의 수를 카운트한다. 특정 단어가 몇 번 나오고 특정 단어의 결합이 몇 번 나오는 지를 센다. 특정 문서에만 나오는 단어에는 가중치를 준다.

기계학습 관련 알고리즘은 여러 변수들을 데이터 섹터에서 추출한 뒤 모델을 만든다. 데이터 분석은 가지고 있는 데이터만을 100% 정량화하면 예측성이 떨어지게 된다. 좋아할 만한 영화를 100% 예측하기 위해서는 여러분이 본 영화만을 첨부하는 게 아니라, 데이터의 90%만 가져온 뒤 10%를 예측하고 곱하기 10을 해서 10회를 반복하는 방법이어야 정확도가 높아진다.

'디시전 트리'(머신러닝 알고리즘을 활용한 데이터마이닝 기법)은 잘 알려진 방법론인데, 예를 들어 타이타닉을 본다면 누군가 죽을 확률이 높은지 낮은지를 판단하려면 여성과 아동이 먼저 구조가 된다는 조건 하에 성별은 사망률에 주요한 요건이 된다. 이런 식으로 텍스트를 두고 분석을 하는 일이다.

증권관련 소장에서 특정 단어가 반복될 때에 해당 단어가 합의 확률이 높은지, 기각 확률이 높은 지를 알려주는 변수들이다. 1만5000개에 달하는 가장 관련성이 높은 단어들이 있다. 배경 통계만 말해보자면 기본적인 통계 하에 가장 중요한 건 합의금이다. 44% 정도는 금전적인 합의가 나타나고 71%는 (소송)통합이 이뤄진다. 대표 변호인단이 소집돼 더 자세한 소장이 작성된다. 1차에는 9000개 정도, 집단소장은 2만5000개 단어로 구성된다. 예측 정확도로는 55%정도가 기각이 된다.

이 부분이 주가에 반영되는 순서는, 소장이 제기 되는 즉시 예측이 가능하다. 상위 20% 정도를 추출해 합의 가능성과 기각 가능성을 봤고 소장이 제출된 다음날을 기준으로 주가 영향도 살펴봤다. 결론적으로 시장은 잘 판단했지만 약간의 시차를 뒀다.

기각이 된 소송은 주가가 하락되지만 크게 하락하지 않는다. 금전적 합의가 이뤄진 사례에서는 0~10일 정도 지나면 주가가 하락하는 걸 볼 수 있다. 집단 소장의 경우 기본 내용은 이미 알려진 부분이고 새로운 부분은 일부기 때문에 반 정도는 오르고 반은 내린다.

이 예측을 위한 리서치에서 소장이 유의미하다. 소장이 사용한 단어들에 따라 소송 결과와 수준이 달라진다. 소인, 변호사의 수준 등이 영향을 주는 요소다. 이 결과에 따라 헤지펀드들이 자체 분석을 한다면 수익을 얻을 수도 있다. 다만 알고리즘을 통한 판단은 아직까지는 시기상조다. 예측 확률이 높지 않고 소장의 내용을 알고리즘에 맞춰 작성할 수도 있어서다.
< 저작권자 ⓒ 자본시장 미디어 'thebell', 무단 전재, 재배포 및 AI학습 이용 금지 >

더벨 서비스 문의

02-724-4102

유료 서비스 안내
주)더벨 주소서울시 종로구 청계천로 41 영풍빌딩 5층, 6층대표/발행인성화용 편집인이진우 등록번호서울아00483
등록년월일2007.12.27 / 제호 : 더벨(thebell) 발행년월일2007.12.30청소년보호관리책임자김용관
문의TEL : 02-724-4100 / FAX : 02-724-4109서비스 문의 및 PC 초기화TEL : 02-724-4102기술 및 장애문의TEL : 02-724-4159

더벨의 모든 기사(콘텐트)는 저작권법의 보호를 받으며, 무단 전재 및 복사와 배포 등을 금지합니다.

copyright ⓒ thebell all rights reserved.