Facebook crawler nemá přístup a proto nefunguje share na facebook
Dobrý den,
řeším problém s Facebook crawlerem facebookexternalhit na webu https://airevue.cz.
Facebook Sharing Debugger:
https://developers.facebook.com/tools/debug/?q=https%3A%2F%2Fairevue.cz%2Fwireclaw-esp32-jako-ai-agent-ktery-prezije-vypadek-internetu
vrací:
– HTTP 403
– Response Code Reason:
„This response code could be due to a robots.txt block. Please allowlist facebookexternalhit on your sites robots.txt config to utilize Facebook scraping“
robots.txt ale crawler neblokuje:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
.htaccess také neobsahuje žádná pravidla blokující facebookexternalhit.
Současně běžný test přes curl s User-Agentem facebookexternalhit/1.1 vrací HTTP 200:
Open Graph metadata jsou na stránce přítomná a například X/Twitter crawler je načítá korektně.
Facebook debugger ale stále dostává HTTP 403 a nenačte správně OG metadata stránky.
Nejde nějak z logů zjisit, jestli jsou tyto crawlery blokovány?:
– facebookexternalhit
– Facebot
v rámci nějakého traffic filteringu?
Děkuji.
1 Odpověď
Dobrý den,
z naší strany z pravidla nejsou dané user-agenty nijak blokovány. V logách web-serveru u těchto případů obvykle shledáme, že dotazy v pořádku procházejí.
Podobné případ již byly hlášeny od jiných zákazníků, nicméně pouze ohledně Facebooku. Daný problém jsme dohledali také na fórech facebooku.
Obávám se tedy, že bude nutno kontaktovat s tímto problémem zákaznickou podporu Facebooku.
Pro další ověření z naší strany by bylo nutné znát alespoň IP adresu, ze které Facebook crawler přistupuje. Pokud tuto IP znáte, zašlete nám ji s požadavkem k prověření blokace přes náš kontaktní formulář.
Pokud nějakou IP blokujeme, pak se tak děje z důvodu excesivního přetěžování cílových serverů desítkami dotazů za sekundu, neblokujeme regulérní provoz či IP adresy bezdůvodně.