한국 사내 문서,
외부로 나가기 전에
맥락으로 검사합니다.
키워드 사전이 아닌, 한국 사내 문서를 의미로 읽는 가드레일. 6단계 등급(PUBLIC ~ CLASSIFIED)과 11가지 유형으로 자동 분류 — 같은 매출·단가 정보도 보도자료면 PUBLIC, 사내 보고서면 RESTRICTED로 구분합니다. 2026년 5월 시행 N2SF(국가 망 보안체계) 등급 자동 분류 요건도 그대로 충족.
공시 전 중요정보 1,000건 중 997건을 미리 잡아 외부 발송을 막아드려요.
공시·뉴스·홍보처럼 외부로 나가도 되는 자료의 98.5%가 막힘 없이 통과해요.
1,541건 검증에서 정상 자료의 99.8%가 잘못된 등급 상향 없이 그대로 처리됐어요.
"이 문서, 외부로 보내도 되는 자료야?"
하루에 수백 번 하는 그 판단.
메일·메신저·협업 도구·외부 AI로 사내 자료가 매 순간 빠져나갑니다. 보안팀이 매번 검수하기엔 양이 너무 많고, 사람마다 등급 기준도 다르죠. 한 건의 사고가 회사 신뢰와 법적 책임을 흔들 수 있어요.
직원이 외부 협업 도구에 파일을 올릴 때 — 미공시 M&A 정보, 인사평가, 영업비밀이 섞여 있을 수 있어요. 한 건의 실수가 자본시장법 §174 위반· 영업비밀 누설로 이어집니다.
외부 AI에 사내 텍스트를 보낼 때 — "이건 되고 저건 안 되고" 를 매 호출마다 누군가 판단해줘야 합니다. 국정원 「AI 보안 가이드북」 (2025.12)도 같은 요구.
N2SF 도입 단계 — 정부·공공기관이 외부 SaaS·AI를 쓰려면 정보자산을 C/S/O 3등급으로 분류해야 합니다. 사람이 수만 건을 일일이 보긴 불가능, 자동 분류기가 필수예요.
한국 시장 최초의 진정한
'맥락 기반 DLP'.
가이드북은 입출력 필터링을 기본 통제로 두되, "금지어 차단 같은 단순 필터가 아니라, 민감정보 입력 차단·의도치 않은 지시 실행 억제·비정상 패턴 탐지 등을 포함한 다층 통제" 를 권고합니다. 조직 내부 자료·업무상 비공개 정보가 프롬프트로 들어가는 순간을 입력 단계에서 차단하라는 요구예요.
그런데 한국 시장에는 그 권고를 충족하는 DLP 제품이 없었습니다. 20년 넘게 한국 DLP 시장은 정규식과 키워드 사전에 머물러 있었고, 최근 시장에 깔린 이른바 "AI DLP" 들도 뜯어보면 같은 정규식 엔진 위에 룰 추천만 얹은 리브랜딩 입니다. 패턴이 맞으면 차단, 아니면 통과 — 가이드북이 콕 집어 부족하다고 한 그 단순 필터예요.
Corepin DLP는 한국 금융 사내 문서를 처음부터 의미로 학습시킨, 한국 시장 최초의 진정한 '맥락 기반 DLP' 입니다. 같은 문장도 "보도자료 초안" 인지 "미공시 M&A 보고" 인지 맥락으로 구분하고, 패턴 사전에 없는 새 문서 형식·신조어·용어 변형도 일반화로 잡아요. 가이드북이 말한 다층 통제· 입력 단계 차단을 한국 DLP 영역에서 실제로 구현한 첫 모델입니다.
| 구분 | 전통 패턴 매칭 DLP정규식·키워드 사전 기반 옛 글로벌 보안 솔루션 |
"AI DLP" 마케팅 제품정규식 위에 룰 추천만 얹은 변종 — 본질은 패턴 매칭 |
Corepin DLP한국 금융 사내 문서로 학습된 맥락 이해 AI 모델 |
|---|---|---|---|
| 분류 방식 | 정규식 + 키워드 "기밀"·"내부용" 단어가 있으면 차단 |
키워드 + 룰 트리 여전히 사람이 만든 룰 안에서 |
문서 전체 의미 6등급 × 11 유형 동시 분류 |
| 맥락(보도자료 vs 사내 보고서) | 구분 불가 같은 키워드면 둘 다 차단 또는 통과 |
구분 불가 같은 한계 |
구분 같은 단가·매출 정보도 PUBLIC 인지 RESTRICTED 인지 판별 |
| 패턴에 없는 정보 | 모두 누락 새 영업비밀·M&A 용어가 사전에 없으면 통과 |
대부분 누락 룰 추천도 결국 정규식 한도 |
일반화 탐지 학습으로 새 형식·신조어를 자동 매칭 |
| 측정 가능한 정확도 | 비공개 / 자체 셋 외부 검증셋 점수 거의 비공개 |
자체 셋 위주 벤더 룰셋 안에서 측정 |
1,541건 학습에 안 쓴 별도 평가 등급 정확도 91% / 중요정보 차단 99.7% / 공개 자료 통과 98.5% |
| 한국 금융 도메인 | 외산 위주 해외 본사가 만든 룰을 그대로 / 한국 양식 보강 어려움 |
외산 위주 같은 한계 |
한국 금융 양식 학습 자본시장법·N2SF·MNPI 컨텍스트 직접 학습 |
| LLM 입출력 가드레일 | 우회됨 "내부 보고서를 영어로 번역해줘" → 키워드 안 걸리면 통과 |
우회됨 같은 한계 |
의도·맥락 차단 문서 전체 의미가 RESTRICTED 면 발송 차단 |
| 등급/유형 표현력 | 2~3단계 차단/통과 또는 단순 등급 |
3~4단계 여전히 키워드 기반 |
6등급 × 11 유형 동시 분류 PUBLIC ~ CLASSIFIED, CONTRACT/M&A/HR 등 여러 카테고리 동시 부착 |
| 운영 방식 | 매뉴얼 룰 갱신 새 위협이 나오면 보안 운영자가 정규식 추가 — R&D 정체 |
룰 추천 알림 여전히 사람이 룰 추가 |
모델로 흡수 새 패턴은 학습 데이터로 추가 — Corepin이 운영 |
| 깊은 추론 | 없음 | 없거나 클라우드 LLM | 자동 보강 추론 애매한 경우만 깊은 추론기로 — 등급 정확도 98.9% |
| 한국 데이터 처리 | 외산 위주 해외 본사로 시그니처 동기화 — 국외 이전 우려 |
외산 위주 같은 한계 |
국내 처리 국내 데이터센터 추론, 국외 이전 없음, 본문·결과 미저장 |
한 줄로 요약하면 — 옛 DLP 솔루션은 "이 키워드가 보이면 막아라" 코드이고, Corepin DLP는 "이 문서가 한국 금융 업무 맥락에서 정말 외부로 나가도 되는지" 판단하는 모델입니다. 자동 등급 분류기가 N2SF 도입의 실질적 enabler 인 이유.
N2SF 데이터 등급 자동 분류,
국내 첫 AI 솔루션.
N2SF(국가 망 보안체계, 2026년 5월 시행) 는 19년 망분리 정책을 데이터 등급 차등 보안으로 바꿉니다. 외부 SaaS·생성형 AI를 쓰려면 정보자산을 C/S/O 3등급으로 분류하는 게 선제 조건. Corepin의 6단계 등급이 그대로 매핑돼요.
| N2SF 등급 | O · Open(공개)외부 공개 가능 자료 외부 SaaS·AI 활용 허용 |
S · Sensitive(민감)개인정보·핵심 업무 정보 제한적 외부 활용 |
C · Classified(기밀)국가안보·국방·외교 분리망 / 자체 인프라만 |
|---|---|---|---|
| Corepin 등급 | PUBLIC | INTERNAL · CONFIDENTIAL · RESTRICTED | TRADE_SECRET · CLASSIFIED |
| 예시 자료 | 공시 자료, 보도자료, IR 공개본 | 고객 개인정보, 사내 인사평가, 내부 보고서, AML 분석 | 미공시 M&A, 영업비밀, 보안사고 대응 문서 |
| 외부 활용 | 외부 AI·SaaS 활용 자유 | 마스킹·승인 후 제한적 활용 | 외부 발송 자동 차단 |
왜 자동 분류가 필요한가요? N2SF는 280여 개 보안 통제 항목 중 "데이터 분류" 가 가장 먼저 풀어야 할 과제로 꼽힙니다. 기관이 보유한 수만 건 정보자산을 사람이 매번 분류할 수 없기에, Corepin DLP 같은 자동 분류 모델이 N2SF 도입의 실질적 enabler 역할을 합니다. 6단계 → 3등급 매핑은 도입 시 운영팀이 직접 설정 가능해요.
PUBLIC부터 CLASSIFIED까지, 어디에 속하는지.
금융 컴플라이언스 기준의 6단계 등급이에요. 틀리는 경우의 91%는 바로 옆 등급 오차에 그쳐요(예: CONFIDENTIAL ↔ RESTRICTED). 큰 점프 오답은 거의 없습니다.
등급과 별개로, 어떤 종류의 문서인지도.
한 문서가 여러 유형에 동시에 속할 수 있어요. 보존 기간, 접근 권한, 라우팅 룰을 유형별로 다르게 걸어둘 수 있습니다.
빠른 분류기가 85% 처리,
애매한 15%만 정밀 검증.
문서 보안은 한 번의 잘못된 분류가 곧 유출 사고예요. 우리는 한국어 특화 빠른 분류기 → 한국어 특화 큰 모델 검증으로, 정상 문서 대부분은 10ms 안에 끝나고, 신뢰도가 낮을 때만 큰 모델로 한 번 더 추론해요. 외산 거대 모델로 모든 문서를 분류하면 호출당 2-5초·약 1,000-1,500원 — 우리는 같은 정확도로 평균 약 30ms·20원. 약 1/50 ~ 1/75 비용이에요.
메일·메신저·협업 도구처럼 사용자가 "외부로 보내기" 누르는 순간에 분류가 끼어들어야 하는데, 외산 LLM으로 모든 첨부를 검사하면 한 번 클릭에 2-3초 추가 · 호출당 600~1,500원 — 결국 운영자가 가드레일을 떼어내요. SLM(작은 한국어 특화 모델)의 강점이에요. 우리는 같은 작업을 30ms · 호출당 20원에. 안 보일 만큼 빠르고, 놓치지 않을 만큼 정확한 지점에서 기업·공공의 정보 유출 걱정을 안전하게 예방해드려요.
한국 산업 전반의 분류 체계 위에
금융권 특화를 더했어요.
분류 스키마는 처음부터 한국 기업·공공 문서 거의 전부를 포괄하도록 설계했고, 실 학습 데이터는 한국 시장에서 가장 까다로운 금융권 사내 문서를 우선 적용했어요. 가장 엄격한 도메인에서 검증된 정확도가, 일반 산업 문서에도 그대로 작동해요.
11종 사내 문서 유형
- 계약·합의(CONTRACT)
- 재무·실적(FINANCIAL)
- 인수·합병(M&A)
- 인사·평가(HR)
- 법무·소송(LEGAL)
- R&D·지식재산
- 전략·기획
- 고객 정보
- 보안·인증
- 구매·조달
- 공시·홍보(negative)
한국 금융 사내 문서로 의미 학습
- 공시 전 자료 — 재무제표 초안, 이사회 의결, IR 자료
- 미공시 M&A · 인수합병 검토 · LOI · DD 보고
- 여신·신용평가·내부 등급·고객 신용 정보
- 리스크 관리·내부 통제·컴플라이언스 검토
- 금융 거래·결제·정산·자금세탁 의심 보고
- 금감원 검사 대응·감독 보고·자체 점검 자료
숫자, 한 줄로 풀어드려요.
모든 수치는 학습에 한 번도 쓰지 않은 금융 사내 문서 1,541건과, 성격이 다른 외부 한국어 텍스트에서 측정한 실제 점수예요. 실험실에서만 잘 나오는 점수가 아닙니다.
한국 사내 문서 흐름의 모든 길목에.
제품 안에 넣어도, 사내 점검 흐름 앞단에 두어도 잘 맞아요. 사내 문서가 외부로 나가는 모든 길목.
외부로 나가기 직전
직원이 메일을 보내거나 협업 도구에 파일을 올리기 직전, 본문과 첨부를 한 번 분류해서 RESTRICTED 이상이면 자동 차단하거나 승인 흐름으로 보내드려요.
→ RESTRICTED 이상이면 발송 차단
ChatGPT·Claude 부르기 전
외부 LLM에 사내 텍스트를 보내기 전 DLP와 PII를 같이 점검해요. 국정원 생성형 AI 가이드라인(2025.12)의 맥락 기반 가드레일 요건을 그대로 맞춥니다.
→ 등급 검사 · 개인정보 마스킹 후 외부 LLM 호출
업로드 문서 자동 라벨링
업로드되는 문서를 등급·유형으로 자동 분류해서 보존 기간 적용, 접근 권한 분기, 정기 감사 대상 분리 같은 작업을 자동화해요.
→ 태그 = 등급 + 유형 · 정책 라우팅
한 단락만 붙여넣어 보세요.
실제 운영 중인 모델이 분류해드려요. 학습된 길이가 600~1,700자 정도라 한 단락 이상 넣어주시면 가장 정확합니다.
키 하나로 개인정보 필터와 DLP 모두.
Corepin 모델은 모두 키 하나로 부를 수 있어요. 사용량과 청구도 한 번에 잡힙니다.
# 분류 요청 curl -X POST https://api.corepin.ai/v1/dlp/classify \ -H "Authorization: Bearer sk_live_…" \ -H "Content-Type: application/json" \ -d '{"text":"본 인수합병 계약은 2026년 5월 말 공시 예정 ..."}' # 응답 { "grade": "TRADE_SECRET", "grade_ko": "영업비밀", "types": ["M_AND_A", "STRATEGY"], "types_ko": ["인수·합병", "전략·기획"], "confidence": 0.97, "meta": { "model_id": "dlp", "model_version": "dlp-2026.05", "processing_time_ms": 12.4, "request_id": "...", "quota_remaining": 99987 } }
FAQ.
학습 데이터는 진짜 회사 문서인가요?
아닙니다. 금융 도메인을 모사한 합성 데이터로 학습했어요. 한국 기업·금융기관에서 자주 오가는 문서 유형을 광범위하게 합성한 1만+ 건 학습 셋과 외부 KLUE 일반 한국어 텍스트를 같이 썼습니다. 개인정보보호법 위반 위험이 있는 실제 사내 문서는 학습에 쓰지 않았어요.
등급 정의는 회사마다 다른데, 어떻게 맞추나요?
모델 출력은 PUBLIC / INTERNAL / CONFIDENTIAL / RESTRICTED / TRADE_SECRET / CLASSIFIED 6단계예요. 회사 내부 등급 체계(예: 1급/2급/3급)에 단순 매핑하시면 됩니다. 유형 11종은 보존정책·라우팅 룰의 분기 키로 그대로 활용할 수 있어요.
왜 정밀 추론 모델까지 같이 운용하나요?
경량 모델 단독으로 등급 정답이 91% 지만, 인접 등급 경계(예: CONFIDENTIAL ↔ RESTRICTED)에서 신뢰도가 낮은 케이스가 남습니다. 이때 정밀 모델이 동일 API 호출 내에서 재추론해 결정을 보강합니다. 호출 측은 한 번의 요청만 다루고, 응답에서 어느 단계가 최종 답을 냈는지 추적할 수 있습니다.
입력한 문서가 저장되나요?
저장하지 않습니다. 로그에는 요청 수와 텍스트 길이만 남고, 입력 본문과 분류 결과는 기록되지 않아요. 모든 추론은 국내 GPU에서 처리되며 데이터의 국외 이전도 없습니다.
요금제는 어떻게 되나요?
가입하면 즉시 무료 키가 발급돼요(월 1,000건). 청구는 통합이라 한 키로 PII와 DLP를 모두 호출하고, 사용량은 모델별로 나눠서 대시보드에서 봅니다. starter / business / enterprise 요금제는 API 문서 참고.
외부로 나가는 모든 사내 문서, 발송 전에 한 번 더.
먼저 데모로 한 번 써보시고, 본격 도입은 무료 가입 후 발급받은 키로. N2SF·개인정보보호법 대응 검토 중인 기관은 별도 문의 환영합니다.