robots.txt 차단 오류로 검색 엔진 색인 누락 해결 방법
robots.txt 설정 오류로 검색 엔진 색인에서 누락되는 문제를 해결하는 방법을 Infra 경험을 바탕으로 공유합니다. 의도치 않은 경로 차단 해결책을 확인하세요.
검색 엔진이 내 사이트의 중요한 페이지들을 제대로 색인하지 못하고 있나요? robots.txt 설정 때문에 특정 경로가 차단되어 검색 결과에서 누락되는 문제가 발생했을 수 있습니다. 이 글에서 제가 겪었던 비슷한 상황과 해결 과정을 공유해 드릴게요.
시도와 함정
처음에는 당연히 robots.txt 파일 자체에 문법 오류가 있거나, 잘못된 지시어가 포함되었을 거라고 생각했어요. 그래서 파일 내용을 꼼꼼히 다시 살펴봤죠.
User-agent: *
Disallow: /chat
이런 식으로 /chat 경로를 차단하는 설정이 문제일 거라고 추측했습니다. 실제로 이 경로에는 사용자 인터페이스와 관련된 내용이 많았거든요.
하지만 robots.txt 문법은 완벽했고, 다른 검색 엔진 관련 설정에도 문제는 없어 보였습니다. 몇 시간을 들여 robots.txt 관련 문서들을 뒤져봤지만, 명확한 해결책을 찾기 어려웠어요. 검색 엔진 개발자 도구에서 "색인됐으나 robots 차단"이라는 경고만 계속 보였습니다.
원인
결론적으로 문제는 robots.txt 파일 자체의 오류가 아니라, 차단 설정이 의도치 않게 중요한 페이지의 색인을 막고 있었다는 것이었습니다. 특히 /chat 경로에 포함된 일부 페이지들이 검색 엔진이 색인해야 할 중요한 콘텐츠를 담고 있었는데, 이 경로 전체를 Disallow로 막아버린 것이 화근이었죠.
해결
해결책은 의외로 간단했습니다. /chat 경로 자체를 차단하는 대신, 정말로 검색 엔진이 접근하지 못하게 하고 싶은 특정 하위 경로만 명시적으로 차단하도록 설정을 수정했습니다.
User-agent: *
Disallow: /chat/private-conversations/
이렇게 변경하면 /chat 아래의 다른 페이지들은 여전히 색인될 수 있지만, /chat/private-conversations/ 경로에 있는 민감한 내용만 차단하게 됩니다.
결과
- 검색 엔진이 사이트의 관련 페이지들을 올바르게 색인하기 시작했습니다.
- 개발자 도구에서 보이던 "색인됐으나 robots 차단" 경고가 해소되었습니다.
- 사이트의 전반적인 검색 노출도가 개선되는 것을 확인했습니다.
정리 — 같은 함정 안 빠지려면
- [ ]
robots.txt설정 시,Disallow에 명시하는 경로가 의도치 않게 중요한 페이지의 접근을 막고 있지는 않은지 다시 한번 확인하세요. - [ ] 특정 경로 전체를 차단하기보다는, 정말로 차단해야 하는 하위 경로만 명시적으로 지정하는 것을 고려하세요.
- [ ]
robots.txt변경 후에는 반드시 검색 엔진 개발자 도구를 통해 색인 상태와robots.txt테스터 기능을 활용하여 변경 사항을 검증하세요. - [ ]
robots.txt는 검색 엔진의 크롤링을 '요청'하는 것이지, '강제'하는 것이 아님을 기억하세요.
태그