Politica di indicizzazione

Come troviamo e processiamo gli annunci di lavoro

Job Seek è uno strumento di tracciamento aziende — monitora migliaia di pagine carriere aziendali in modo che gli utenti possano creare watchlist e ricevere avvisi su nuovi annunci. Questa pagina documenta esattamente come si comporta il nostro crawler, i controlli che lo rendono rispettoso e come gli annunci finiscono nell'indice.

Garanzie di crawling

Ritmo rispettoso.
Ogni finestra di retry utilizza un backoff esponenziale, così non sovraccarichiamo mai un server, e ci fermiamo se un host continua a non rispondere.
Robot, attribuzione e riserva TDM.
Il nostro crawler legge il file robots.txt, rispetta le regole di disallow, si identifica tramite User-Agent e rispetta l'header W3C TDM-Reservation — se una pagina segnala una riserva, la saltiamo.
Una pagina al minuto.
Anche dopo la scoperta, recuperiamo le pagine di dettaglio degli annunci con un limite rigoroso di una richiesta per sito al minuto.

The Monk · Hans Holbein (1523-5)

Come gli annunci entrano nell'indice

Cerchiamo feed strutturati prima di fare scraping dell'HTML grezzo. Prima controlliamo le sitemap, poi le API JSON lato client, e analizziamo le pagine complete solo quando nessuno dei due è disponibile.

Prima la sitemap. Cerchiamo una sitemap che elenchi già tutte le pagine carriere o di dettaglio degli annunci — idealmente collegata da robots.txt — e ci affidiamo ad essa ogni volta che è possibile.
API client come seconda opzione. Se non esiste una sitemap, ispezioniamo l'applicazione client alla ricerca di API JSON che utilizza; quando le troviamo, interroghiamo direttamente quegli endpoint per enumerare gli URL degli annunci senza fare scraping del DOM.
Parsing delle pagine delicato. Come ultima risorsa analizziamo le pagine carriere stesse, preferendo l'ordine dal più recente e fermandoci non appena ricompaiono posizioni già indicizzate, anziché scansionare ogni pagina.
Archiviazione selettiva. Una volta recuperato un singolo annuncio, memorizziamo solo i metadati specifici della posizione (titolo, descrizione del ruolo, sede, note sulla retribuzione, URL dell'annuncio e date) oltre ai campi strutturati estratti. Non archiviamo contenuti del sito non correlati.

Incoraggiamo vivamente la pubblicazione di una sitemap facilmente individuabile per la tua sezione carriere. In assenza di una sitemap, inviamo periodicamente richieste HEAD leggere agli URL degli annunci già scoperti per verificare che siano ancora attivi, generando traffico non necessario.

Opt-out o domande

Se noti attività impreviste del nostro crawler o preferisci che il tuo sito carriere non venga indicizzato, scrivici via email e risponderemo tempestivamente. business@colophon-group.org.

La nostra posizione sull'automazione

Ci opponiamo a delegare le decisioni di assunzione o di ricerca lavoro ad automazioni opache — sia dal lato dei datori di lavoro che dei candidati. Ogni link in uscita che condividiamo include utm_source=jobseek affinché i recruiter riconoscano il traffico, e monitoriamo continuamente i pattern di utilizzo applicando frizioni per scoraggiare le candidature automatizzate.

Crawler open source

La trasparenza è importante, perciò il codice del nostro servizio di raccolta link e della pipeline di estrazione è open source. Consulta il repository su github.com/colophon-group/jobseek-indexing(apre in una nuova scheda).

Vuoi contattarci?

Se noti un comportamento anomalo del crawler, preferisci che non indicizziamo i tuoi contenuti o hai suggerimenti su come migliorare le nostre misure di sicurezza, contattaci. business@colophon-group.org.