Corepin / 한국형 문서보안 필터

한국 사내 문서,
외부로 나가기 전에
맥락으로 검사합니다.

키워드 사전이 아닌, 한국 사내 문서를 의미로 읽는 가드레일. 6단계 등급(PUBLIC ~ CLASSIFIED)과 11가지 유형으로 자동 분류 — 같은 매출·단가 정보도 보도자료면 PUBLIC, 사내 보고서면 RESTRICTED로 구분합니다. 2026년 5월 시행 N2SF(국가 망 보안체계) 등급 자동 분류 요건도 그대로 충족.

99.7%
중요정보 차단
공시 전 중요정보 1,000건 중 997건을 미리 잡아 외부 발송을 막아드려요.
98.5%
공개 자료 통과
공시·뉴스·홍보처럼 외부로 나가도 되는 자료의 98.5%가 막힘 없이 통과해요.
99.8%
정상 자료 보호
1,541건 검증에서 정상 자료의 99.8%가 잘못된 등급 상향 없이 그대로 처리됐어요.
왜 자동 등급 분류기가 필요한가

"이 문서, 외부로 보내도 되는 자료야?"
하루에 수백 번 하는 그 판단.

메일·메신저·협업 도구·외부 AI로 사내 자료가 매 순간 빠져나갑니다. 보안팀이 매번 검수하기엔 양이 너무 많고, 사람마다 등급 기준도 다르죠. 한 건의 사고가 회사 신뢰와 법적 책임을 흔들 수 있어요.

직원이 외부 협업 도구에 파일을 올릴 때 — 미공시 M&A 정보, 인사평가, 영업비밀이 섞여 있을 수 있어요. 한 건의 실수가 자본시장법 §174 위반· 영업비밀 누설로 이어집니다.

외부 AI에 사내 텍스트를 보낼 때 — "이건 되고 저건 안 되고" 를 매 호출마다 누군가 판단해줘야 합니다. 국정원 「AI 보안 가이드북」 (2025.12)도 같은 요구.

N2SF 도입 단계 — 정부·공공기관이 외부 SaaS·AI를 쓰려면 정보자산을 C/S/O 3등급으로 분류해야 합니다. 사람이 수만 건을 일일이 보긴 불가능, 자동 분류기가 필수예요.

시나리오 01
"이 메일, 보내도 될까?"
신입사원이 외부 거래처에 보내려는 자료에 사내 미공시 정보가 섞여 있을 수 있어요. 발송 직전 한 번의 등급 검사로 차단·승인 흐름으로 보냅니다.
시나리오 02
"이거 ChatGPT에 물어봐도 될까?"
담당자가 사내 보고서 요약을 외부 LLM에 맡기려 할 때 — 등급이 높으면 자동 차단, 일부 마스킹 후 전송, 또는 사내 SLM으로 라우팅.
시나리오 03
"이 문서, 몇 년 보관해야 해?"
업로드되는 사내 문서를 등급·유형으로 자동 라벨링. 보존 기간·접근 권한·정기 감사 대상이 자동으로 결정돼요.
시나리오 04
"DART 공시 전 자료가 새지 않게."
공시 D-day 전까지 미공시 정보(MNPI)가 임직원 메일·메신저로 새는지 자동 모니터링. 자본시장법 §174 위반 사고 예방.
정책 권고 · 시장 현실

한국 시장 최초의 진정한
'맥락 기반 DLP'.

국가정보원 「AI 보안 가이드북」 (2025년 12월 · 15개 위협 / 30개 대책)

가이드북은 입출력 필터링을 기본 통제로 두되, "금지어 차단 같은 단순 필터가 아니라, 민감정보 입력 차단·의도치 않은 지시 실행 억제·비정상 패턴 탐지 등을 포함한 다층 통제" 를 권고합니다. 조직 내부 자료·업무상 비공개 정보가 프롬프트로 들어가는 순간을 입력 단계에서 차단하라는 요구예요.

그런데 한국 시장에는 그 권고를 충족하는 DLP 제품이 없었습니다. 20년 넘게 한국 DLP 시장은 정규식과 키워드 사전에 머물러 있었고, 최근 시장에 깔린 이른바 "AI DLP" 들도 뜯어보면 같은 정규식 엔진 위에 룰 추천만 얹은 리브랜딩 입니다. 패턴이 맞으면 차단, 아니면 통과 — 가이드북이 콕 집어 부족하다고 한 그 단순 필터예요.

Corepin DLP는 한국 금융 사내 문서를 처음부터 의미로 학습시킨, 한국 시장 최초의 진정한 '맥락 기반 DLP' 입니다. 같은 문장도 "보도자료 초안" 인지 "미공시 M&A 보고" 인지 맥락으로 구분하고, 패턴 사전에 없는 새 문서 형식·신조어·용어 변형도 일반화로 잡아요. 가이드북이 말한 다층 통제· 입력 단계 차단을 한국 DLP 영역에서 실제로 구현한 첫 모델입니다.

구분 전통 패턴 매칭 DLP정규식·키워드 사전 기반
옛 글로벌 보안 솔루션
"AI DLP" 마케팅 제품정규식 위에 룰 추천만 얹은
변종 — 본질은 패턴 매칭
Corepin DLP한국 금융 사내 문서로 학습된
맥락 이해 AI 모델
분류 방식 정규식 + 키워드
"기밀"·"내부용" 단어가 있으면 차단
키워드 + 룰 트리
여전히 사람이 만든 룰 안에서
맥락(보도자료 vs 사내 보고서) 구분 불가
같은 키워드면 둘 다 차단 또는 통과
구분 불가
같은 한계
패턴에 없는 정보 모두 누락
새 영업비밀·M&A 용어가 사전에 없으면 통과
대부분 누락
룰 추천도 결국 정규식 한도
측정 가능한 정확도 비공개 / 자체 셋
외부 검증셋 점수 거의 비공개
자체 셋 위주
벤더 룰셋 안에서 측정
한국 금융 도메인 외산 위주
해외 본사가 만든 룰을 그대로 / 한국 양식 보강 어려움
외산 위주
같은 한계
LLM 입출력 가드레일 우회됨
"내부 보고서를 영어로 번역해줘" → 키워드 안 걸리면 통과
우회됨
같은 한계
등급/유형 표현력 2~3단계
차단/통과 또는 단순 등급
3~4단계
여전히 키워드 기반
운영 방식 매뉴얼 룰 갱신
새 위협이 나오면 보안 운영자가 정규식 추가 — R&D 정체
룰 추천 알림
여전히 사람이 룰 추가
깊은 추론 없음 없거나 클라우드 LLM
한국 데이터 처리 외산 위주
해외 본사로 시그니처 동기화 — 국외 이전 우려
외산 위주
같은 한계

한 줄로 요약하면 — 옛 DLP 솔루션은 "이 키워드가 보이면 막아라" 코드이고, Corepin DLP는 "이 문서가 한국 금융 업무 맥락에서 정말 외부로 나가도 되는지" 판단하는 모델입니다. 자동 등급 분류기가 N2SF 도입의 실질적 enabler 인 이유.

N2SF 대응

N2SF 데이터 등급 자동 분류,
국내 첫 AI 솔루션.

N2SF(국가 망 보안체계, 2026년 5월 시행) 는 19년 망분리 정책을 데이터 등급 차등 보안으로 바꿉니다. 외부 SaaS·생성형 AI를 쓰려면 정보자산을 C/S/O 3등급으로 분류하는 게 선제 조건. Corepin의 6단계 등급이 그대로 매핑돼요.

N2SF 등급 O · Open(공개)외부 공개 가능 자료
외부 SaaS·AI 활용 허용
S · Sensitive(민감)개인정보·핵심 업무 정보
제한적 외부 활용
C · Classified(기밀)국가안보·국방·외교
분리망 / 자체 인프라만
Corepin 등급 PUBLIC INTERNAL · CONFIDENTIAL · RESTRICTED
예시 자료 공시 자료, 보도자료, IR 공개본 고객 개인정보, 사내 인사평가, 내부 보고서, AML 분석
외부 활용 외부 AI·SaaS 활용 자유 마스킹·승인 후 제한적 활용

왜 자동 분류가 필요한가요? N2SF는 280여 개 보안 통제 항목 중 "데이터 분류" 가 가장 먼저 풀어야 할 과제로 꼽힙니다. 기관이 보유한 수만 건 정보자산을 사람이 매번 분류할 수 없기에, Corepin DLP 같은 자동 분류 모델이 N2SF 도입의 실질적 enabler 역할을 합니다. 6단계 → 3등급 매핑은 도입 시 운영팀이 직접 설정 가능해요.

6단계 등급

PUBLIC부터 CLASSIFIED까지, 어디에 속하는지.

금융 컴플라이언스 기준의 6단계 등급이에요. 틀리는 경우의 91%는 바로 옆 등급 오차에 그쳐요(예: CONFIDENTIAL ↔ RESTRICTED). 큰 점프 오답은 거의 없습니다.

G0
PUBLIC
공개
공시·뉴스·홍보. 외부 공개 가능.
G1
INTERNAL
내부
사내 일반 문서. 외부 공유 부적절.
G2
CONFIDENTIAL
기밀
특정 부서·직급만 접근. NDA 권장.
G3
RESTRICTED
제한
임원·법무·감사 등 제한 인가자만.
G4
TRADE_SECRET
영업비밀
기술·노하우·고객 리스트. 누설 시 영업비밀보호법.
G5
CLASSIFIED
특급
법령·규제 보호 대상. 유출 시 형사 책임.
11가지 유형

등급과 별개로, 어떤 종류의 문서인지도.

한 문서가 여러 유형에 동시에 속할 수 있어요. 보존 기간, 접근 권한, 라우팅 룰을 유형별로 다르게 걸어둘 수 있습니다.

CONTRACT
계약·합의
계약서, MOU, NDA, 합의문 등
FINANCIAL
재무·실적
재무제표, 실적 보고, 결산 자료
M_AND_A
인수·합병
M&A·지분 인수·합작 등 미공시 영향 정보
HR
인사·평가
인사 기록, 평가, 처우, 징계
LEGAL
법무·소송
소송, 규제 대응, 컴플라이언스 검토
RND_IP
R&D·지식재산
연구개발 자료, 특허, 영업비밀 명세
STRATEGY
전략·기획
사업 전략, 로드맵, 시장 진출 계획
CUSTOMER
고객 정보
거래·계좌·취향·문의 이력
SECURITY
보안·인증
보안 정책, 키·토큰·인증서, 사고 보고
PROCUREMENT
구매·조달
납품 단가, 협력사 거래, 입찰 자료
PUBLIC_CLASSIFIED
공시 분류물
공시·뉴스·홍보 분류 대상 (negative)
다단 자동 분류

빠른 분류기가 85% 처리,
애매한 15%만 정밀 검증.

문서 보안은 한 번의 잘못된 분류가 곧 유출 사고예요. 우리는 한국어 특화 빠른 분류기 → 한국어 특화 큰 모델 검증으로, 정상 문서 대부분은 10ms 안에 끝나고, 신뢰도가 낮을 때만 큰 모델로 한 번 더 추론해요. 외산 거대 모델로 모든 문서를 분류하면 호출당 2-5초·약 1,000-1,500원 — 우리는 같은 정확도로 평균 약 30ms·20원. 약 1/50 ~ 1/75 비용이에요.

1단계 · 한국어 특화 빠른 분류기
의미 기반 등급·유형 분류약 10ms / GPU
한국 기업 사내 문서(계약·재무·M&A·HR·법무·R&D·전략) 도메인에 특화 학습된 빠른 분류 모델. 6등급(한 가지 선택) + 11 유형(여러 개 동시 선택)을 한 번에 분류해요. 신뢰도 점수도 함께 반환.
트래픽 약 85% 처리
2단계 · 한국어 특화 큰 모델
신뢰도 부족 시 재검토약 1.5s / GPU
1단계 신뢰도가 임계치 미만일 때 큰 모델이 한 번 더 검토. 1단계가 잡지 못하는 미묘한 등급 경계(예: 사내용 vs 대외비)까지 정확히 잡아요.
트래픽 약 15% 처리
자동 단계 전환   1단계 신뢰도가 충분하면 그대로 반환(트래픽 약 85%). 부족할 때만 자동으로 큰 모델로 넘어가요. 어느 단계로 갔는지·왜 그렇게 분류됐는지 우리가 알아서 처리해드려요. API 한 줄 호출이면 끝이에요.
속도 비교 — 한 문서 등급·유형 분류 시간 (평균, 한국 → 미국 왕복 포함)
모델
응답 시간
우리 대비
대용량 문서 일괄 처리
Corepin · 다단 분류국내 처리
~30ms
✅ 1만 건/분 처리 · 메일·메신저 인라인 가능 · 호출당 20원
Claude Opus 4.7flagship LLM
~1,500ms
50× 느림
⚠ 1만 건 → 250분 · 호출당 약 1,480원 · 74× 비쌈
GPT-5.5flagship LLM
~2,500ms
83× 느림
⚠ 1만 건 → 416분 · 호출당 약 1,180원 · 59× 비쌈
Gemini 3 Pro Previewflagship LLM
~3,000ms
100× 느림
❌ 인라인 부적합 · 호출당 약 590원 · 29× 비쌈

메일·메신저·협업 도구처럼 사용자가 "외부로 보내기" 누르는 순간에 분류가 끼어들어야 하는데, 외산 LLM으로 모든 첨부를 검사하면 한 번 클릭에 2-3초 추가 · 호출당 600~1,500원 — 결국 운영자가 가드레일을 떼어내요. SLM(작은 한국어 특화 모델)의 강점이에요. 우리는 같은 작업을 30ms · 호출당 20원에. 안 보일 만큼 빠르고, 놓치지 않을 만큼 정확한 지점에서 기업·공공의 정보 유출 걱정을 안전하게 예방해드려요.

학습 데이터 · 모델이 본 한국 문서들

한국 산업 전반의 분류 체계 위에
금융권 특화를 더했어요.

분류 스키마는 처음부터 한국 기업·공공 문서 거의 전부를 포괄하도록 설계했고, 실 학습 데이터는 한국 시장에서 가장 까다로운 금융권 사내 문서를 우선 적용했어요. 가장 엄격한 도메인에서 검증된 정확도가, 일반 산업 문서에도 그대로 작동해요.

기본 분류 체계 · 모든 산업 공통

11종 사내 문서 유형

한국 기업이 일상적으로 만드는 거의 모든 문서를 한 모델로 분류해요. 제조·IT·서비스·공공 어디에서나 그대로 적용 가능해요.

  • 계약·합의(CONTRACT)
  • 재무·실적(FINANCIAL)
  • 인수·합병(M&A)
  • 인사·평가(HR)
  • 법무·소송(LEGAL)
  • R&D·지식재산
  • 전략·기획
  • 고객 정보
  • 보안·인증
  • 구매·조달
  • 공시·홍보(negative)
★ 금융권 특화 학습

한국 금융 사내 문서로 의미 학습

자본시장법 §174(미공시 정보 누설 금지) · MNPI · N2SF(국가 정보보안 등급) 컨텍스트를 직접 학습. 공시 전 자료와 일반 자료를 의미로 구분해요.

  • 공시 전 자료 — 재무제표 초안, 이사회 의결, IR 자료
  • 미공시 M&A · 인수합병 검토 · LOI · DD 보고
  • 여신·신용평가·내부 등급·고객 신용 정보
  • 리스크 관리·내부 통제·컴플라이언스 검토
  • 금융 거래·결제·정산·자금세탁 의심 보고
  • 금감원 검사 대응·감독 보고·자체 점검 자료
1,541건
학습에 안 쓴 별도 평가 셋 — 한국 금융 사내 문서
중요정보 차단 99.7% · 등급 정확도 91%
5,000건
학습에 안 쓴 일반 한국어 뉴스 — 일반화 검증
PUBLIC 정확 분류 100% · 오차단 0건
금융권 도입 시 — 11종 분류 체계는 그대로 두고, 자사 사내 약어·부서별 양식·내부 코드명만 50-100건 추가로 도메인 적응 학습하면 5-7일 안에 자사 환경 fine-tune 가능해요. 분류 정확도는 보안 게이트로 직결되니 contact@corepin.ai 로 PoC 협의 부탁드려요.
실제 점수

숫자, 한 줄로 풀어드려요.

모든 수치는 학습에 한 번도 쓰지 않은 금융 사내 문서 1,541건과, 성격이 다른 외부 한국어 텍스트에서 측정한 실제 점수예요. 실험실에서만 잘 나오는 점수가 아닙니다.

정확도
98.5%
공개 자료 정확 통과
모델이 "공개해도 됨" 으로 통과시킨 문서 100건 중 98.5건이 진짜 공개 가능한 자료예요. 공시·뉴스·홍보처럼 외부에 나가는 게 정상인 자료가 엉뚱하게 막히는 일이 거의 없어요.
PUBLIC으로 예측한 모든 자료 기준 — 공개 통과의 정확도
사용자 경험
99.8%
정상 자료 그대로 처리
공개·내부용 자료의 99.8%가 잘못된 등급 상향 없이 그대로 처리됐어요. 직원이 평범한 자료를 보내려다 답답해할 일이 거의 없어요.
PUBLIC/INTERNAL 정답 → 등급 그대로 유지된 비율(1,541건 검증 기준)
정확도
91.0%
등급, 한 번에 맞춰요
1,541건 중 1,402건의 등급을 한 번에 정확히 맞춰요. 6단계 중에 무작위로 맞을 확률(16.7%) 보다 5배 이상 정확합니다. 틀리는 경우도 대부분 바로 옆 등급 오차에 그쳐요.
정답과 똑같은 등급으로 맞춘 비율
안전 설계
91%
큰 점프 오답이 거의 없어요
등급이 틀린 119건 중 108건이 '바로 옆 등급' 오답(예: CONFIDENTIAL ↔ RESTRICTED). 두 단계 이상 점프하는 큰 사고는 단 2건. 학습할 때부터 큰 사고를 직접 막도록 설계했어요.
정답과의 거리가 1등급 이하인 비율(평균 오차 1.11등급)
실전 검증
100%
학습 밖에서도 잘 작동해요
학습에 안 쓴 일반 한국어 뉴스 5,000건을 모두 PUBLIC으로 정확히 분류했어요. 연습 문제만 잘 푸는 모델이 아니라, 진짜 일반 텍스트에서도 안정적으로 작동한다는 뜻이에요.
KLUE-YNAT 일반 한국어 뉴스 헤드라인 5,000건
검증셋
1,541건
금융 사내 문서 — 학습에 안 쓴 별도 셋
외부
+ 5,000건
일반 한국어 뉴스 헤드라인(KLUE)
정답 라벨
합성 데이터 학습
학습-평가 분리 합성 검증 셋
모델
DLP 분류기 v1
경량 분류기 + 정밀 추론기(2단계)
어떻게 쓰면 좋아요

한국 사내 문서 흐름의 모든 길목에.

제품 안에 넣어도, 사내 점검 흐름 앞단에 두어도 잘 맞아요. 사내 문서가 외부로 나가는 모든 길목.

메일·메신저·파일 공유

외부로 나가기 직전

직원이 메일을 보내거나 협업 도구에 파일을 올리기 직전, 본문과 첨부를 한 번 분류해서 RESTRICTED 이상이면 자동 차단하거나 승인 흐름으로 보내드려요.

본문 /v1/dlp/classify
RESTRICTED 이상이면 발송 차단
외부 LLM 가드레일

ChatGPT·Claude 부르기 전

외부 LLM에 사내 텍스트를 보내기 전 DLP와 PII를 같이 점검해요. 국정원 생성형 AI 가이드라인(2025.12)의 맥락 기반 가드레일 요건을 그대로 맞춥니다.

입력 /v1/dlp/classify + /v1/pii/redact
등급 검사 · 개인정보 마스킹 후 외부 LLM 호출
보존·접근 정책

업로드 문서 자동 라벨링

업로드되는 문서를 등급·유형으로 자동 분류해서 보존 기간 적용, 접근 권한 분기, 정기 감사 대상 분리 같은 작업을 자동화해요.

업로드 /v1/dlp/classify
태그 = 등급 + 유형 · 정책 라우팅
직접 써보세요

한 단락만 붙여넣어 보세요.

실제 운영 중인 모델이 분류해드려요. 학습된 길이가 600~1,700자 정도라 한 단락 이상 넣어주시면 가장 정확합니다.

유형
confidence: latency: ms
통합은 이렇게

키 하나로 개인정보 필터와 DLP 모두.

Corepin 모델은 모두 키 하나로 부를 수 있어요. 사용량과 청구도 한 번에 잡힙니다.

# 분류 요청
curl -X POST https://api.corepin.ai/v1/dlp/classify \
  -H "Authorization: Bearer sk_live_…" \
  -H "Content-Type: application/json" \
  -d '{"text":"본 인수합병 계약은 2026년 5월 말 공시 예정 ..."}'

# 응답
{
  "grade": "TRADE_SECRET",
  "grade_ko": "영업비밀",
  "types": ["M_AND_A", "STRATEGY"],
  "types_ko": ["인수·합병", "전략·기획"],
  "confidence": 0.97,
  "meta": {
    "model_id": "dlp",
    "model_version": "dlp-2026.05",
    "processing_time_ms": 12.4,
    "request_id": "...",
    "quota_remaining": 99987
  }
}
자주 받는 질문

FAQ.

학습 데이터는 진짜 회사 문서인가요?

아닙니다. 금융 도메인을 모사한 합성 데이터로 학습했어요. 한국 기업·금융기관에서 자주 오가는 문서 유형을 광범위하게 합성한 1만+ 건 학습 셋과 외부 KLUE 일반 한국어 텍스트를 같이 썼습니다. 개인정보보호법 위반 위험이 있는 실제 사내 문서는 학습에 쓰지 않았어요.

등급 정의는 회사마다 다른데, 어떻게 맞추나요?

모델 출력은 PUBLIC / INTERNAL / CONFIDENTIAL / RESTRICTED / TRADE_SECRET / CLASSIFIED 6단계예요. 회사 내부 등급 체계(예: 1급/2급/3급)에 단순 매핑하시면 됩니다. 유형 11종은 보존정책·라우팅 룰의 분기 키로 그대로 활용할 수 있어요.

왜 정밀 추론 모델까지 같이 운용하나요?

경량 모델 단독으로 등급 정답이 91% 지만, 인접 등급 경계(예: CONFIDENTIAL ↔ RESTRICTED)에서 신뢰도가 낮은 케이스가 남습니다. 이때 정밀 모델이 동일 API 호출 내에서 재추론해 결정을 보강합니다. 호출 측은 한 번의 요청만 다루고, 응답에서 어느 단계가 최종 답을 냈는지 추적할 수 있습니다.

입력한 문서가 저장되나요?

저장하지 않습니다. 로그에는 요청 수와 텍스트 길이만 남고, 입력 본문과 분류 결과는 기록되지 않아요. 모든 추론은 국내 GPU에서 처리되며 데이터의 국외 이전도 없습니다.

요금제는 어떻게 되나요?

가입하면 즉시 무료 키가 발급돼요(월 1,000건). 청구는 통합이라 한 키로 PII와 DLP를 모두 호출하고, 사용량은 모델별로 나눠서 대시보드에서 봅니다. starter / business / enterprise 요금제는 API 문서 참고.

외부로 나가는 모든 사내 문서, 발송 전에 한 번 더.

먼저 데모로 한 번 써보시고, 본격 도입은 무료 가입 후 발급받은 키로. N2SF·개인정보보호법 대응 검토 중인 기관은 별도 문의 환영합니다.

무료로 시작하기 API 문서 보기