쿼리파이 AIDD 기획자가 바라보는 데이터 디스커버리 360

쿼리파이 AIDD 기획자가 바라보는 데이터 디스커버리 360

보안 영역으로 확장되는 데이터 디스커버리

안녕하세요, 쿼리파이의 화이트팀 Brendon입니다. 최근 민감 정보 유출과 잠재적 보안 위협을 최소화하기 위해 많은 조직들이 데이터 디스커버리를 도입하고 있습니다. 사실 데이터 디스커버리는 일반적으로 데이터를 분석하고 사업적 인사이트를 얻기 위한 도구로 사용 됐는데요. 보안의 중요성이 나날이 증대 됨에 따라 보안 영역에서도 중요한 도구로 인식되기 시작했습니다. 특히 민감 정보를 관리하는 측면에서 그 필요성이 대두되고 있죠. 일반적인 데이터 디스커버리와 보안 영역에서의 데이터 디스커버리의 차이점을 간단한 표로 정리하자면 아래와 같습니다.

최근 쿼리파이가 출시한 ‘쿼리파이 AIDD’는 보안 영역에서 활용되는 데이터 디스커버리인데요. 사용자의 니즈를 충족시키는 제품을 개발하기 위해 셀 수 없는 논의와 검토가 이어졌습니다. 데이터 디스커버리 제품에 대한 사용자의 이해도에 따라 제품 활용도가 천차만별 달라지기 때문이죠. 그리고 치열했던 토론 끝에 사용자의 레벨에 따라 ‘쿼리파이 AIDD’ 인터페이스를 개선함으로써 사용자의 요구를 만족시키는 동시에 간편한 사용자 경험을 제공할 수 있도록 설계했습니다. 결과적으로 사용자는 아래와 같은 특징들을 통해 민감 데이터를 효과적으로 관리할 수 있습니다.


  • 조직 내 데이터 소스에 대해 주기적으로 혹은 사용자가 원하는 시점에 수동으로 탐색
  • 존재하는 민감 정보를 자동으로 식별하여 분류된 태그를 부여
  • 식별된 민감 정보가 유형 및 연관된 규제에 따라 자동 매핑되어 쉽게 탐색 결과 확인 가능
  • 탐색 결과로 자동 감지된 민감 정보의 오탐지 유무를 판단한 후 해당 데이터 소스의 민감 정보의 존재를 확정
  • 확인된 민감 정보가 존재하는 경로에 태그의 형태로 부여되어 inventory에 최종 반영
  • 최종적으로 확정된 민감 정보에 대한 내용을 대시보드를 통해 손쉽게 식별 가능


쿼리파이 미션. 까다로운 민감 데이터 식별 적중률 높이기

‘쿼리파이 AIDD’를 개발하면서 가장 힘을 쏟았던 부분 중 하나는 발견된 민감 데이터에 대한 적중률을 극대화하고 false positive를 최소화하는 것이었습니다.

사실 조건에 맞는 데이터를 검출해 내는 작업은 정규식에 의한 검출이든 AI 분류기를 활용한 검출이든 그 어떤 방법을 막론하고 실제와 다른 결과를 도출하는 상황을 피할 수는 없습니다. 정밀한 조건을 걸어 두면 매칭되는 데이터를 추출해 낼 확률은 높아지지만 그만큼 찾지 못하는 false negative가 많아지고, 반대로 조건을 느슨하게 하면 더 많은 데이터를 추출해 낼 수는 있지만 맞지 않는 데이터도 함께 검출되는 false positive가 많아지기 때문이죠.

따라서 이 두 가지 방향 안에서 밸런스를 유지하면서 만족스러운 결과를 도출하는 것은 디스커버리 계열의 제품을 만들기 시작한 이상 항상 마주할 수 밖에 없는 도전인지라, 어찌보면 사용자도 사용상의 노력이 수반되기 때문입니다.  

데이터 식별 적중률을 높일 수 있는 최적의 설계는 무엇일까?’ 에 대한 물음표의 연속…

사용자도 손쉽게 관리할 수 있는 ‘쿼리파이 AIDD’

대표적으로 고려해야 하는 부분은 정규식을 사용하는 방법과 AI 분류기를 사용하는 방법을 적당한 비율로 조정하는 것인데, 한동안 제자리 걸음이었습니다. 한쪽에 치우쳐 데이터를 식별할 경우 비효율이나 오작동 문제가 발생할 수 있기 때문입니다. 예컨대 모든 데이터를 AI 분류기로 검출할 경우 비용 효율이 좋지 않을 뿐더러 되레 정규식이 더 잘 작동하는 경우도 있습니다. 따라서 같은 대상에 대해서도 하나의 정규식으로 모든 것을 다 검출하겠다는 욕심을 버리고 여러 개의 정규식을 조합하고 조건을 부여해서 정답에 근접하는 방법을 사용해야 합니다.

이렇게 되면, 디스커버리 사용자의 관점에서 살펴봤을 때 이러한 일련의 과정을 수행하기에는 난이도가 너무 높습니다. 쿼리파이는 이 부분에 초점을 맞춰 사용자의 편의성을 최대한 고려했습니다. ‘쿼리파이 AIDD’는 가급적 많은 사전 정의된 패턴을 제공하고 사용자는 위와 같은 과정 없이 적절한 신뢰도를 유지하며 보안을 유지할 수 있습니다. 이를 위해 현재 180개의 사전 정의된 Built-in Pattern을 제공하고 있으며, 효율적인 운영을 위해 맥락의 이해가 필요한 대상에 필요한 AI 분류기의 지원도 점차 늘려 나갈 계획입니다.


또 다른 미션. 보안은 강화하고 사용성은 높여보자!

향후 ‘쿼리파이 AIDD’의 행보에 대해서도 궁금하시죠? 보안 영역에서의 데이터 디스커버리는 크게 세 가지의 영역으로 확장될 수 있습니다.

1) 카탈로깅을 통한 데이터 분류

민감 정보에 대한 분류를 다양한 기준으로 분류하면 수준 별로 보안 조치를 적용할 수 있습니다. 조직 내 생산된 데이터에 태그나 레이블을 부여하고 정책과 연계하여 접근 수준을 조정하게 됩니다. 

2) 규제 보장을 위한 태세 관리(Posture Management)

각종 규제는 특정 민감 정보에 대해 암호화를 강제하고 있습니다. 데이터 디스커버리가 단순히 민감 정보의 존재 유무를 확인하는 수준에 머물러 있는 것이 아니라 규제에 적극적으로 대응하기 위해 민감 정보가 존재하는 데이터 소스의 구성 정보를 검토해서 암호화 유무를 판단하고 추가 보안 조치를 취할 수 있도록 할 수 있어야 합니다.

3) 실시간 감사 기법을 동원한 이상 징후 탐지

민감 정보가 존재하는 위치가 특정되면 실시간으로 누가, 언제, 어떤 방법으로, 얼마나 자주 민감 정보에 접근하는지 통계를 만들고 평균에서 벗어나는 이상 징후를 감지하여 추가 조치를 취하는 방향으로 발전할 수 있습니다. 또한 사용자에 따라 마스킹을 적용하거나 접근을 차단하도록 정책을 적용하는 요구 사항에도 대응할 수 있습니다. 

현재 ‘쿼리파이 AIDD’는 이 세 가지를 전부 염두해두고 모든 방향에서 시발점에 해당하는 위치에 있습니다. 시장과 고객의 니즈를 최우선으로 생각하며 제품을 개발하는 쿼리파이 팀, 보안은 강화하면서 사용성은 더욱더 높이는 방향으로 지속 발전할 계획이니 ‘쿼리파이 AIDD’를 포함해 앞으로 출시될 다양한 제품 라인업에 대한 많은 관심과 성원 부탁드립니다. 🙏

댓글을 보거나 남기려면 로그인

QueryPie의 글 더 보기