GSC '발견됨 - 현재 색인이 생성되지 않음' 22건의 진실 — AI 재작성 글이 구글에 거절당한 날
구글 노출 0회. sitemap 은 잘 들어가있는데 색인이 안 됐다. URL Inspection API 로 글마다 점검해보니 42개 중 22개가 NEUTRAL 판정. 원인은 retrospective 류 AI 재작성 글이 만든 콘텐츠 중복 신호였다.
한 줄 요약
sitemap 에 42개 글이 다 들어가있고, IndexNow 도 쏘고, GSC 에 sitemap.xml 도 등록했는데 3개월간 노출 3회 / 클릭 0. URL Inspection API 로 글 하나하나 점검해보니 22개가 "Discovered – currently not indexed" (발견됨 – 현재 색인이 생성되지 않음). 구글이 sitemap 으로 URL 은 알아냈는데 페이지를 보고 "색인할 가치 없음" 판단한 상태였다.
증상
- Google Search Console — 3 impressions / 0 clicks (3개월 누적)
- sitemap.xml — 42개 published 글 정상 노출
- 네이버 Yetibot — sitemap.xml 만 긁고 개별 글은 안 가져감
- IndexNow 핑 — Bing/Yandex 200 OK 응답
- 그래도 검색결과 색인 거의 0
진단 도구: GSC URL Inspection API
sitemap ping / IndexNow 까지 다 됐는데 색인이 안 된다면, 다음으로 봐야 할 건 글마다의 indexStatusResult. GSC UI 에서 한 글씩 클릭하는 대신 URL Inspection API 로 자동화한다.
service.urlInspection().index().inspect(body={
"inspectionUrl": "https://aicoreutility.com/blog/foo",
"siteUrl": "sc-domain:aicoreutility.com",
"languageCode": "ko",
}).execute()
응답의 핵심 필드는 indexStatusResult:
verdict: PASS | NEUTRAL | FAIL | PARTIALcoverageState: 사람이 읽는 상태 텍스트 ("Submitted and indexed", "Discovered – currently not indexed", ...)indexingState: INDEXING_ALLOWED | BLOCKED_BY_META_TAG | ...pageFetchState: SUCCESSFUL | SOFT_404 | BLOCKED_ROBOTS_TXT | ...robotsTxtState,googleCanonical,userCanonical,lastCrawlTime
쿼터는 property 당 일 2000회 — 글 수십~수백 개면 여유.
점검 결과 — 42개 중 indexed 2개
| verdict | 건수 | 의미 |
|---|---|---|
| PASS | 2 (5%) | 색인 완료. 검색결과 노출 가능. |
| NEUTRAL — Discovered, not indexed | 22 (52%) | 구글이 URL 은 알지만 색인 거부. |
| NEUTRAL — URL is unknown to Google | 4 (10%) | 아직 크롤도 안 됨. |
| (미점검) | 14 (33%) | 다음 batch 에서 보충 점검. |
22개의 공통 패턴
NEUTRAL 22개 슬러그를 나열해보니 패턴이 또렷했다.
solo-dev-backend-retrospective-2022-2026
4-years-ai-exploration-solo-dev-retrospective
solo-dev-nginx-ssl-survival-log
solo-dev-aws-deployment-retrospective-2026
riel-chatbot-4-years-traffic-survival-strategy
riel-frontend-dev-retrospective-4-years
4-year-solo-developer-retrospective-with-chatgpt
solo-dev-llm-local-4-year-retrospective
... (22개 거의 같은 결)
거의 다 "1인 개발자 N년 회고" 류였다. 한 달쯤 전 티스토리 137개 글을 일괄 임포트하면서 LLM 으로 SEO 친화 제목/본문 batch 재작성한 결과물이었다. 사람 눈엔 안 보였지만 구글이 본 건:
- 같은 주제(혼자 개발 회고)를 살짝 다른 키워드 조합으로 반복
- 유사한 단락 구조 / 도입부 / 결론 톤
- 고유 정보(에러 메시지, 코드 스니펫, 스크린샷) 부족
구글은 이를 "low-value duplicates" 로 분류하고 색인하지 않는다. 실제로 구글 스팸 정책 문서 의 "Scaled content abuse" 항목이 정확히 이 케이스다.
처방 — 일괄 archive
이미 색인 안 됐으니 손해는 없다. NEUTRAL 22개에 추가로 같은 패턴이지만 미점검 1개 더해
23개를 한 번에 status='archived' 처리했다.
UPDATE blog_posts
SET status='archived', updated_at=NOW()
WHERE status='published'
AND slug = ANY($1::TEXT[]);
-- UPDATE 23
sitemap 생성 코드가 WHERE status='published' 필터를 이미 쓰고 있어서
별도 작업 없이 sitemap.xml 이 42개 → 19개로 줄었다.
개별 글 페이지(/blog/[slug])도 자동 404 (get_by_slug 가 같은 필터).
구글 측 변화는 자동으로 일어난다:
- 다음 sitemap 크롤(통상 수일 내) → 23개가 사라진 걸 확인
- 해당 URL 들의 status 가 "Discovered" → "Dropped" 로 점차 변경
- 수 주 내 GSC "페이지" 보고서에서 자연 제거
남은 19개 — 진짜 "기록" 들
archive 안 된 글들의 공통점:
- 구체적인 에러 메시지가 제목에 들어있음 (예:
useState already declared,Cannot read properties of undefined (clientModules)) - 코드 스니펫 + 명령어 + 실측 시간 같은 고유 데이터 포함
- 해결 후 검증까지 한 사건 회고록
구글 입장에서 이런 글은 "unique information not easily findable elsewhere" 로 점수가 높다. 글이 적어도 한 명의 다른 개발자에게 도움이 될 만한 정보가 있어야 한다는 게 정량적 결과로 나왔다.
교훈
- "sitemap 등록 + IndexNow 핑 = 색인" 이 아니다. 구글은 페이지 자체의 가치를 1차로 판단하고, 미달이면 sitemap 에 있어도 색인 안 한다.
- LLM 일괄 재작성은 SEO 자살 행위다. 특히 한 주제에 대해 "조금씩 다른 N개" 를 만드는 패턴은 구글이 정확히 잡아낸다. 하나의 고품질 글이 N개의 평균 글보다 강하다.
- GSC URL Inspection 은 무료 + 무자비한 신호다. "Discovered – not indexed" 가 30% 넘으면 콘텐츠 전략 재검토 신호. 50% 넘으면 즉시 청소 들어가야 한다.
- AdSense 신청 전 반드시 indexed 비율 확인. indexed 가 적으면 AdSense 도 거절한다. publish 수가 많은데 indexed 가 적으면 오히려 마이너스 신호다.
다음 단계
앞으로 글은 다음 기준만 통과시킨다:
- 실제 만난 에러 메시지 / 로그 / 스크린샷 한 가지 이상 포함
- 해결 코드 또는 명령어 첨부 (복붙해서 실행 가능한 형태)
- "왜 안 됐는지 → 어떻게 알아냈는지 → 어떻게 고쳤는지" 3단 구조
- 1주일에 1~2개 (양보다 질)
2주 후 같은 URL Inspection 다시 돌려서 indexed 비율 추적할 예정. 색인된 글 비율 50% 넘으면 AdSense 신청한다.
태그
📨 박주니에게 한마디
스팸·악성 메시지 방지를 위해 구글 로그인 후 메시지를 보낼 수 있어요. 비공개로 전달되며, 운영자 외에는 볼 수 없습니다.
Google 로그인 후 메시지 남기기