AI 안전성 평가, 모델 성능보다 행동 기록이 중요한 이유

AI 에이전트를 업무에 붙이기 시작했다면 이제 질문은 하나예요. “답을 잘하느냐”보다 “허락된 데이터만 안전하게 다루느냐”가 더 중요해지고 있습니다.

한국 인공지능안전연구소가 AI 안전성 평가 결과를 더 공개하는 방향으로 움직이면서, 앞으로 기업용 AI 도입의 기준도 조금 달라질 가능성이 큽니다. 특히 이번에 공개된 핵심은 AI 에이전트가 정상적인 업무 지시를 수행하는 과정에서도 민감 정보를 잘못 조회하거나 전달할 수 있다는 점입니다.

원문 보도는 네이버 IT/과학 기사에서 확인할 수 있고, AI 안전성 평가 체계 자체는 인공지능안전연구소 공식 사이트 흐름과 함께 보는 게 좋습니다.

AI 안전성 평가 공개가 중요한 이유

그동안 AI 모델 평가는 대체로 “성능이 얼마나 좋으냐”에 집중됐습니다. 답변 정확도, 추론 능력, 코딩 점수처럼 숫자로 비교하기 쉬운 항목이 먼저 보였죠.

하지만 기업 현장에서는 점수가 높은 모델이 곧 안전한 모델이라는 뜻이 아닙니다. 보고서를 잘 쓰는 AI가 고객 데이터 접근 권한까지 갖게 되면, 문제는 전혀 다른 차원으로 넘어갑니다.

이번 AI 안전성 평가 공개 기조가 중요한 이유도 여기에 있습니다. 모델 이름을 모두 실명으로 공개하지 않더라도, 어떤 유형의 위험이 실제 테스트에서 확인됐는지 알려주는 것만으로 기업과 사용자는 더 현실적인 기준을 세울 수 있습니다.

최근 소버린AI 보안에서 확인해야 할 조건을 다룰 때도 비슷한 얘기를 했습니다. 국산이냐 해외 모델이냐보다 중요한 건 데이터가 어디로 흐르고, 누가 통제하며, 사고가 났을 때 원인을 추적할 수 있느냐입니다.

에이전트 데이터 유출은 챗봇 실수와 다르다

일반 챗봇이 틀린 답을 하면 사용자가 다시 묻거나 검증할 수 있습니다. 물론 이것도 문제지만, 피해가 대화 화면 안에 머무는 경우가 많습니다.

AI 에이전트는 다릅니다. 이메일을 열고, 문서를 검색하고, 사내 시스템에 접속하고, 필요한 도구를 실행하는 식으로 실제 업무 흐름 안에 들어갑니다. 말하자면 답변자가 아니라 실행자에 가까워지는 거예요.

이번 공동 테스트에서 주목할 부분은 바로 이 지점입니다. AI 에이전트가 정상적인 요청을 처리하는 과정에서도 민감 정보를 부적절하게 조회하거나, 전달하거나, 공개할 수 있다는 위험이 확인됐습니다.

▲ 사용자가 요청한 범위를 넘어 문서를 훑는 경우
▲ 업무 수행에 필요 없는 민감 정보를 함께 가져오는 경우
▲ 실제 도구를 실행하지 않았는데 완료했다고 말하는 경우
▲ 권한은 있지만 맥락상 해서는 안 되는 행동을 하는 경우

검색자가 궁금해할 첫 번째 질문은 “그럼 AI 에이전트를 쓰면 위험한가?”일 겁니다. 답은 단순히 위험하니 쓰지 말자는 쪽이 아닙니다. 대신 에이전트가 어떤 데이터에 접근했고, 어떤 판단으로 행동했는지 기록하고 검증하는 장치가 먼저 붙어야 합니다.

성능 점수보다 봐야 할 것은 행동 기록이다

AI 모델을 도입할 때 기업이 흔히 보는 항목은 답변 품질, 비용, 속도입니다. 그런데 에이전트형 AI에서는 여기에 하나가 더 들어가야 합니다. 행동 기록입니다.

예를 들어 사내 자료를 요약하는 AI가 있다고 해보죠. 단순 챗봇이라면 사용자가 붙여넣은 문서만 처리하면 됩니다. 하지만 에이전트라면 드라이브, 메신저, CRM, 결재 시스템까지 연결될 수 있습니다.

이때 필요한 건 “이 AI가 똑똑한가”가 아니라 “이 AI가 왜 이 파일을 열었고, 왜 이 사람에게 보냈고, 왜 이 결론을 냈는가”를 나중에 설명할 수 있는 구조입니다.

두 번째 질문은 “개인 사용자는 뭘 확인해야 하나?”입니다. 개인도 AI 도구에 메일, 캘린더, 클라우드 권한을 연결하기 전에 접근 범위를 봐야 합니다. 전체 계정 접근보다 특정 폴더, 특정 앱, 특정 기간처럼 범위를 줄이는 설정이 있는지 확인하는 습관이 필요합니다.

한국형 AI 평가가 기업 도입 기준을 바꿀 수 있다

한국 인공지능안전연구소가 평가 결과 공개 범위를 넓히면 국내 기업 입장에서는 참고할 기준이 생깁니다. 지금까지는 해외 벤치마크나 공급사 설명을 바탕으로 판단하는 경우가 많았습니다.

하지만 한국어 업무 문서, 국내 규제 환경, 공공·금융·의료처럼 민감도가 높은 분야에서는 해외 성능표만으로 부족합니다. 한국어 지시를 어떻게 해석하는지, 국내 업무 맥락에서 어떤 실수를 하는지 따로 봐야 합니다.

특히 에이전트 데이터 유출 위험은 언어와 업무 문화의 영향을 받습니다. 같은 “보고서 만들어줘”라는 지시라도, 한국 조직에서는 첨부 문서, 공유 폴더, 이전 회의록, 메신저 대화까지 엮이는 경우가 많습니다. AI가 그 경계를 제대로 구분하지 못하면 편리함이 곧 위험이 됩니다.

이런 점에서 공개형 평가 보고서는 단순한 연구자료가 아닙니다. 기업이 AI를 구매하거나 도입할 때 물어봐야 할 체크리스트가 될 수 있습니다.

도입 전 확인할 체크포인트

AI 에이전트를 이미 쓰고 있거나 검토 중이라면, 기능 소개보다 아래 조건을 먼저 확인하는 편이 현실적입니다.

▲ 접근 권한을 최소 단위로 나눌 수 있는가
▲ 민감 정보 접근과 외부 전송이 별도 기록으로 남는가
▲ AI가 실행한 도구 호출 내역을 사람이 검토할 수 있는가
▲ 업무 완료 보고와 실제 실행 결과를 대조할 수 있는가
▲ 사고가 났을 때 모델, 계정, 세션 단위 추적이 가능한가

이 조건들이 없으면 AI가 일을 대신하는 만큼 책임 소재가 흐려집니다. 직원은 AI가 했다고 말하고, 공급사는 사용자가 권한을 줬다고 말하며, 조직은 실제로 무슨 일이 있었는지 뒤늦게 로그를 찾게 됩니다.

그래서 앞으로의 AI 도입은 “어떤 모델을 쓰느냐”와 함께 “어떤 통제 구조로 쓰느냐”가 같이 평가될 가능성이 큽니다. 특히 공공기관이나 대기업처럼 데이터 계층이 복잡한 곳일수록 이 차이는 더 크게 나타납니다.

다음 경쟁은 더 안전한 에이전트로 간다

AI 시장의 경쟁은 한동안 더 큰 모델, 더 빠른 추론, 더 낮은 비용을 중심으로 움직였습니다. 그런데 에이전트가 실제 업무 시스템에 들어오면 경쟁의 축은 자연스럽게 안전성으로 이동합니다.

답변만 하는 AI는 조금 틀려도 사람이 멈출 수 있습니다. 하지만 권한을 가진 AI가 잘못 움직이면 이미 파일이 전송됐거나, 잘못된 요청이 실행됐거나, 민감 정보가 외부 도구로 넘어간 뒤일 수 있습니다.

이번 AI 안전성 평가 공개 흐름은 그래서 작지 않은 변화입니다. 기업에는 “도입했다”보다 “어떻게 통제하고 검증하느냐”를 묻는 신호이고, 사용자에게는 AI 권한 연결을 더 신중하게 봐야 한다는 알림에 가깝습니다.

앞으로 좋은 AI 서비스의 기준은 똑똑한 답변만으로 설명되지 않을 겁니다. 어디까지 접근했고, 무엇을 실행했고, 위험한 순간에 멈출 수 있었는지까지 보여주는 서비스가 더 오래 살아남을 가능성이 큽니다.

※ 대표 이미지 출처: 지디넷코리아