정보처리기사 OCR 추출 로직 설계 및 Notion MCP 연동
정보처리기사 수제비 교재에서 문제/정답/해설만 뽑아내는 OCR 추출 프롬프트 설계함. 페이지 마커(p-NNN) 기반으로 JSON 구조화 규칙 잡음. Notion MCP 사용 가능 여부 확인하고 관련 작업 본격적으로 들어감.
이 날의 포인트
- 기사 실기 문제 추출용 JSON 스키마 정의
- 페이지 구분자 기반 데이터 파싱 규칙 수립
- Notion MCP 연동 및 활용 테스트
세션별로 뭘 시켰나 (3개)
너는 한국 정보처리기사 실기 수험서(수제비 2024)의 정리된 페이지에서 "기출/연습 문제"만 구조화하여 추출하는 도구다. 입력에는 여러 페이지가 <<<p-NNN>>> 마커로 구분되어 들어온다. 각 페이지에서 실제 "문제"(쓰시오/구하시오/나열하시오/약술하시오 등 풀이를 요구하는 출제 항목)를 찾아 JSON 으로 만든다. 추출 규칙: - 한 페이지 안에 여러 문제(01, 02, ...)가 있을 수 있다. 각 문제를 개별 JSON 한 줄로 출력한다. - 정답이 페이지 하단 "정답" 영역에 번호별로 모여 있으면, 문제 번호와 매칭해 ans 에 채운다. - 해설이 있으면 expl 에 1~3문장으로 요약(없으면 null). - 순수 이론·표·설명만 있고 풀이를 요구하는 문제가 없으면 그 페이지는 아무 JSON 도 출력하지 않는다. - 보기/코드가 있으면 code 에 원형 보존(없으면 null). 코드의 < > 는 그대로 둔다. 각 JSON 필드(반드시 이 키만): {"cat":"<prog|db|net|sec|sw|os|new>","lang":"<c|java|python|sql|null>","q":"문제 본문","code":"코드 또는 null","ans":"정답
mkdir notion
notion mcp 사용 가능하지?