Як знайти непроіндексовані Google сторінки без зайвої метушні і витрат

Як парсити видачу?

Навряд чи став писати на цю просту тему, якби не стаття, яка починається так:

Дізнатися, скільки сторінок було проіндексовано Google, можна за допомогою Search Console. Але як відшукати ті URL, які відсутні в індексі пошукової системи? Справитися з цим завданням допоможе спеціальний скрипт на Python.

цитата з перекладу на searchengines.ru

Ось це так, подумав я. Автор пропонує:

Встановити на комп'ютер Phyton 3.
Встановити бібліотеку BeautifulSoup.
Встановити Tor в якості проксі-сервера.
Встановити Polipo для перетворення socks-проксі в http-проксі.
Провести налаштування в консолі (НЕ Search Conosole! В терміналі операційної системи!).
Побачити попередження в кінці статті «Якщо скрипт не працює, то Google, можливо, блокує Tor. У цьому випадку використовуйте свій власний проксі-сервер ».
Побитися головою об стіну (ой, тут все-таки прорвався мій сарказм).

Автор спирається на вірний в основі спосіб - запити до видачі з оператором info :. Це найнадійніший метод, але у нього є величезний мінус. Один запит перевіряє один url. А що якщо у нас їх 10 000? Або більше?

Очевидно, що потрібен більш економний шлях. І він є. Розповідаю.

По-перше, отримуємо повний список сторінок сайту. Якщо ви прямуєте стандартам веб-розробки і мінімально дбаєте про індексацію, то він повинен міститися в sitemap.xml .

Для зручності роботи вивантажуємо url у вигляді простого списку. Це можна зробити, відкривши xml-файл в Excel:

Це можна зробити, відкривши xml-файл в Excel:

Вся подальша робота зводиться до того, щоб видалити зі списку ті сторінки, які є в індексі.

У пості Як перевірити індексацію сайту або розділу в Google? Відповідь не так вже простий! я писав про те, що традиційно використовуються для пробивання індексу оператори «site:" та "inurl:" не дають точних результатів. Якщо сторінка не виявляється пошуком з оператором, це не означає, що її немає в базі Googe.

Але! Якщо вже сторінка знайшлася - це значить, що вона в індексі. Розумієте різницю? Оператор знаходить не всі, але вже що знаходить - то в індексі. Цим і скористаємося.

Дивимося основні розділи і типові патерни в url, формуємо список запитів для перевірки індексу в них.

Наприклад, для цього блогу:

site: alexeytrudov.com/dnevnik/
site: alexeytrudov.com/web-marketing/
site: alexeytrudov.com/veb-razrabotka/

Як бути, якщо в url немає ЧПУ і явною структури? Можна придумати багато способів. Наприклад, крім site: вказувати фразу, яка є тільки в шаблоні певного розділу. Або навпаки - додати слово зі знаком мінус, щоб знайти url, де воно не міститься.

Суть в тому, щоб а) покрити різні частини сайту і б) використовувати досить складний запит, на який Гугл видасть багато результатів (див. попередню статтю ).

Кожен із запитів здатний принести нам до 1000 нових url. Потрібно вивантажити результати по ним для порівняння зі списком з карти сайту.

Як парсити видачу?

Способів мільйон. Два приклади.

Можна скористатися Key Collector (куплений у кожного оптимізатора ще в минулому житті). Додаємо як фрази запити з операторами:

Додаємо як фрази запити з операторами:

Перед запуском налаштуємо максимальну кількість результатів у видачі:

Тепер сам збір даних:

Чекаємо збору і вивантажуємо список url (то ж меню, «Експортувати дані про пошуковій видачі»). Отримуємо csv-файл з безліччю посилань (у мене на 3 запити - 136 url, половина сайту, додавши ключі по іншим рубрикам напевно знайшов би майже все).

Чи можна впоратися без Key Collector і взагалі без платних програм? Звичайно!

Встановлюєте розширення gInfinity в Chrome (https://chrome.google.com/webstore/detail/ginfinity/dgomfdmdnjbnfhodggijhpbmkgfabcmn).
Встановлюєте розширення Web Developer (http://chrispederick.com/work/web-developer/) - воно вкрай корисно і для інших потреб.

Перший плагін нам дозволяє завантажувати у видачі Google більше 100 результатів простий прокруткою.

Для формування переліку посилань натискаємо на значок Web Developer:

Запит - затиснута кнопка PageDown - вивантаження.

Тепер нам залишається тільки порівняти списки і вичленувати url, які є в карті, але відсутні в вивантаженнях з видачі.

Для порівняння можна використовувати безкоштовний онлайн-сервіс: https://bez-bubna.com/free/compare.php (Ну або Excel). Заодно, до речі, не завадить знайти сторінки, які є у видачі та відсутні в карті сайту. Це ознака або неповної карти, або генерації «сміттєвих» документів і неправильні налаштування індексації.

Якщо ви коректно підібрали запити, то напевно знайшли 90% проіндексованих url і сильно скоротили обсяг роботи. З рештою можна розібратися за допомогою оператора info. Зрозуміло, не варто це робити руками - можна використовувати Rush Analytics . Аналіз 100 посилань буде коштувати 5 рублів. Завдяки попереднім операціям ми суттєво економимо. Або можна зібрати видачу тим же Кейколлектором (тут вже правда вже може знадобитися антікапчі).

Якщо хочете ще скоротити список кандидатів на платну перевірку, то можете також визначити список сторінок, які приносили трафік за останній тиждень-два (вже вони-то майже напевно в індексі!) І відсіяти знайдені. Про те, як вивантажувати url точок входу см. В статті про аналіз сторінок, які втратили трафік .

Як бачите, з завданням пошуку непроіндексованої сторінок у невеликих і середніх (де-небудь до 50 тисяч сторінок) цілком можна впоратися без метушні з консоллю, проксі, phyton-бібліотеками і так далі. Досить мати під рукою популярні інструменти, придатні для безлічі інших завдань.

UPD: Віталій Шаповал резонно зауважив, що:

Напевно, є публічний індекс і його непублічна частина, тому «непроіндексовані Google сторінки» є термінологією вводить в оману. Коректно говорити про відсутність в індексі, що змінює постановку питання чому такі сторінки відсутні.

Згоден з цим уточненням; використовував термін з вихідної статті по інерції. Втім для практики різниця невелика - так чи інакше результуючий список url потрібно пропрацювати, розглянувши різні причини відсутності (не було візиту робота / заборонена індексація / невідповідний контент).

Як парсити видачу?
Але як відшукати ті URL, які відсутні в індексі пошукової системи?
А що якщо у нас їх 10 000?
Або більше?
Розумієте різницю?
Як парсити видачу?
Чи можна впоратися без Key Collector і взагалі без платних програм?

Fast : Интернет-провайдеры и сети

Як знайти непроіндексовані Google сторінки без зайвої метушні і витрат

Як парсити видачу?