"여론 조작 막는다" AI 생성 한국어 댓글 탐지 기술 개발

KAIST·국보연, 98.5% 확률로 식별하는 'XDAC' 개발
박주영

입력 : 2025.06.23 20:00:00


AI 생성 댓글 탐지 예시
[KAIST 제공.재판매 및 DB 금지]

(대전=연합뉴스) 박주영 기자 = 최근 생성형 인공지능(AI) 기술 발전으로 이를 악용한 온라인 여론 조작 우려가 커지고 있다.

오픈AI의 기본 모델 'GPT-4o'이 댓글 1개를 만들어내는 데 드는 비용은 1원으로, 국내 주요 뉴스 플랫폼의 일 평균 댓글 수(20만개)를 생성하는 데 20만원이면 된다.

공개된 대규모 언어 모델(LLM)을 이용하면 무상으로도 가능하다, 이에 AI 생성 글 탐지 기술에 대한 연구가 활발히 이뤄지고 있지만, 대부분 영어로 된 장문의 글을 바탕으로 개발돼 짧고 구어체 표현이 많은 한국어 댓글에는 적용하기 어려웠다.

한국어로 된 짧은 댓글은 통계적 특징이 불충분하고, 비속어·반복 문자 등 비정형 구어 표현이 많아 기존 탐지 모델로는 식별하기 쉽지 않다.

한국과학기술원(KAIST)은 전기·전자공학부 김용대 교수 연구팀이 국가보안기술연구소와 협력해 한국어로 된 AI 생성 댓글을 탐지하는 기술 'XDAC'을 개발했다고 23일 밝혔다.

연구팀은 직접 AI 생성 댓글과 사람이 작성한 댓글을 구별할 수 있는지 실험했다.

4명의 평가자가 210개의 댓글을 평가한 결과, 평가자들은 AI 생성 댓글의 67%를 사람이 쓴 것으로 착각했다.

사람이 작성한 댓글을 구별해 낸 비율도 73%에 그쳤다.

AI 작성 댓글은 기사 맥락 관련성, 문장 유창성 등 측면에서 오히려 사람 작성 댓글보다 뛰어나다는 평가를 받았다.

연구팀은 14종의 다양한 LLM을 토대로 자연스러움, 세밀한 감정 제어, 참조 자료를 통한 증강생성 등 전략을 활용해 AI 댓글 생성 프레임워크 'XDAC'를 개발하고, 이 중 일부를 벤치마크 데이터셋으로 공개했다.



AI 댓글 생성 프레임워크 개요
[KAIST 제공.재판매 및 DB 금지]

연구팀이 AI 생성 댓글의 표현을 정밀하게 분석한 결과, 사람과는 다른 고유한 말투 패턴을 보였다.

AI는 '∼것 같다', '∼에 대해'와 같은 형식적인 표현을 자주 사용하며 접속어 사용률이 높았다.

특수문자는 전 세계적으로 통용되는 이모지를 주로 사용하고, 서식 문자(줄 바꿈, 여러 칸 띄어쓰기)를 사용하는 AI 생성 댓글은 단 1%에 그쳤다.

반면 사람은 'ㅋㅋㅋㅋ'와 같은 반복 문자, 감정 표현, 줄 바꿈, 특수기호 등을 자유롭게 사용하며 이모지보다는 한국어 자음(ㅋ, ㅠ,ㅜ)이나 특수기호(·,♡, ★)등 다양한 문자를 활용하는 모습을 보였다.

특히 'ㅋㅋㅋㅋ'나 'ㅎㅎㅎㅎ' 등 반복 문자를 사용하는 경우가 52%로 AI(12%)보다 훨씬 높았다.

이에 줄 바꿈, 공백 등의 서식 문자를 변환하고, 'ㅋㅋㅋㅋ' 등의 반복 문자와 횟수를 패턴으로 바꿔 사람의 댓글 작성 습관을 학습시켰다.

XDAC는 AI 생성 댓글을 98.5%까지 탐지할 수 있으며, 어떤 AI가 생성했는지까지도 84.3%의 확률로 찾아낼 수 있다고 연구팀은 설명했다.

고우영 선임연구원은 "댓글 작성 시간, 계정 정보, IP 주소 등 추가적인 데이터를 함께 활용한다면 탐지 성능을 더욱 높일 수 있고, 궁극적으로는 AI를 이용한 여론 조작을 막는 데 기여할 것"이라고 말했다.



KAIST·국가보안기술연구소 연구팀
왼쪽부터 김용대 교수, 고우영 선임연구원

jyoung@yna.co.kr(끝)

증권 주요 뉴스

증권 많이 본 뉴스

매일경제 마켓에서 지난 2시간동안
많이 조회된 뉴스입니다.

06.24 01:05 더보기 >