Come troviamo e processiamo gli annunci di lavoro
Job Seek è uno strumento di tracciamento aziende — monitora migliaia di pagine carriere aziendali in modo che gli utenti possano creare watchlist e ricevere avvisi su nuovi annunci. Questa pagina documenta esattamente come si comporta il nostro crawler, i controlli che lo rendono rispettoso e come gli annunci finiscono nell'indice.
Garanzie di crawling
Ritmo rispettoso.
Ogni finestra di retry utilizza un backoff esponenziale, così non sovraccarichiamo mai un server, e ci fermiamo se un host continua a non rispondere.
Robot, attribuzione e riserva TDM.
Il nostro crawler legge il file
robots.txt, rispetta le regole di disallow, si identifica tramiteUser-Agente rispetta l'header W3CTDM-Reservation— se una pagina segnala una riserva, la saltiamo.Una pagina al minuto.
Anche dopo la scoperta, recuperiamo le pagine di dettaglio degli annunci con un limite rigoroso di una richiesta per sito al minuto.
Come gli annunci entrano nell'indice
Cerchiamo feed strutturati prima di fare scraping dell'HTML grezzo. Prima controlliamo le sitemap, poi le API JSON lato client, e analizziamo le pagine complete solo quando nessuno dei due è disponibile.
- Prima la sitemap. Cerchiamo una sitemap che elenchi già tutte le pagine carriere o di dettaglio degli annunci — idealmente collegata da
robots.txt— e ci affidiamo ad essa ogni volta che è possibile. - API client come seconda opzione. Se non esiste una sitemap, ispezioniamo l'applicazione client alla ricerca di API JSON che utilizza; quando le troviamo, interroghiamo direttamente quegli endpoint per enumerare gli URL degli annunci senza fare scraping del DOM.
- Parsing delle pagine delicato. Come ultima risorsa analizziamo le pagine carriere stesse, preferendo l'ordine dal più recente e fermandoci non appena ricompaiono posizioni già indicizzate, anziché scansionare ogni pagina.
- Archiviazione selettiva. Una volta recuperato un singolo annuncio, memorizziamo solo i metadati specifici della posizione (titolo, descrizione del ruolo, sede, note sulla retribuzione, URL dell'annuncio e date) oltre ai campi strutturati estratti. Non archiviamo contenuti del sito non correlati.
Incoraggiamo vivamente la pubblicazione di una sitemap facilmente individuabile per la tua sezione carriere. In assenza di una sitemap, inviamo periodicamente richieste HEAD leggere agli URL degli annunci già scoperti per verificare che siano ancora attivi, generando traffico non necessario.
Opt-out o domande
Se noti attività impreviste del nostro crawler o preferisci che il tuo sito carriere non venga indicizzato, scrivici via email e risponderemo tempestivamente. business@colophon-group.org.
La nostra posizione sull'automazione
Ci opponiamo a delegare le decisioni di assunzione o di ricerca lavoro ad automazioni opache — sia dal lato dei datori di lavoro che dei candidati. Ogni link in uscita che condividiamo include utm_source=jobseek affinché i recruiter riconoscano il traffico, e monitoriamo continuamente i pattern di utilizzo applicando frizioni per scoraggiare le candidature automatizzate.
Crawler open source
La trasparenza è importante, perciò il codice del nostro servizio di raccolta link e della pipeline di estrazione è open source. Consulta il repository su github.com/colophon-group/jobseek-indexing(apre in una nuova scheda).
Vuoi contattarci?
Se noti un comportamento anomalo del crawler, preferisci che non indicizziamo i tuoi contenuti o hai suggerimenti su come migliorare le nostre misure di sicurezza, contattaci. business@colophon-group.org.
