Comment nous trouvons et traitons les offres d'emploi
Job Seek est un outil de suivi d'entreprises — il surveille des milliers de pages carrières d'entreprises pour que les utilisateurs puissent créer des watchlists et recevoir des alertes sur les nouvelles offres. Cette page décrit précisément le comportement de notre robot d'indexation, les contrôles qui garantissent sa courtoisie, et comment les offres atterrissent dans l'index.
Garanties de crawl
Rythme respectueux.
Chaque fenêtre de réessai utilise un backoff exponentiel afin de ne jamais surcharger un serveur d'origine, et nous abandonnons si un hôte continue de ne pas répondre.
Robots, attribution et réservation TDM.
Notre robot lit le fichier
robots.txt, respecte les règles d'interdiction, s'identifie viaUser-Agentet respecte l'en-tête W3CTDM-Reservation— si une page signale une réservation, nous la passons.Une page par minute.
Même après la découverte, nous récupérons les pages de détail des offres à un rythme strict d'une requête par site et par minute.
Comment les offres entrent dans l'index
Nous recherchons des flux structurés avant de scraper du HTML brut. Nous vérifions d'abord les sitemaps, puis les API JSON côté client, et n'analysons les pages complètes que lorsqu'aucune des deux options n'existe.
- Sitemap d'abord. Nous recherchons un sitemap qui liste déjà toutes les pages carrières ou de détail des offres — idéalement lié depuis le fichier
robots.txt— et nous nous y fions autant que possible. - API clientes en second. En l'absence de sitemap, nous inspectons l'application cliente à la recherche d'API JSON qu'elle appelle ; lorsque nous en trouvons, nous interrogeons directement ces points d'accès pour énumérer les URL des offres sans scraper le DOM.
- Analyse de pages respectueuse. En dernier recours, nous analysons directement les pages carrières, en privilégiant le tri du plus récent au plus ancien et en nous arrêtant dès que des offres déjà indexées réapparaissent, plutôt que de parcourir chaque page.
- Stockage sélectif. Une fois qu'une offre individuelle est récupérée, nous ne stockons que les métadonnées propres au poste (intitulé, description du rôle, localisation, informations de rémunération, URL de l'offre et horodatages) ainsi que les champs structurés extraits. Nous n'archivons pas les contenus du site sans rapport avec les offres d'emploi.
Nous encourageons vivement la publication d'un sitemap facilement découvrable pour ta section carrières. Sans cela, nous envoyons périodiquement des requêtes HEAD légères sur les URL d'offres précédemment découvertes pour vérifier qu'elles sont toujours actives, ce qui génère du trafic inutile.
Désinscription ou questions
Si tu constates une activité inattendue de notre robot d'indexation ou préfères que ton site carrières ne soit pas indexé, contacte-nous par e-mail et nous te répondrons rapidement. business@colophon-group.org.
Notre position sur l'automatisation
Nous nous opposons à ce que les décisions de recrutement ou de recherche d'emploi soient confiées à une automatisation opaque — que ce soit côté employeur ou côté candidat. Chaque lien sortant que nous partageons inclut utm_source=jobseek afin que les recruteurs identifient le trafic, et nous examinons en permanence les schémas d'utilisation tout en imposant des frictions pour dissuader les candidatures automatisées.
Robots d'indexation open source
La transparence compte, c'est pourquoi le code de notre service de collecte de liens d'offres et de notre pipeline d'extraction est open source. Parcourir le dépôt sur github.com/colophon-group/jobseek-indexing(ouvre dans un nouvel onglet).
Besoin de nous contacter ?
Si tu remarques un comportement inhabituel de notre robot, préfères que nous n'indexions pas ton contenu, ou as des suggestions pour améliorer nos mesures de protection, n'hésite pas à nous contacter. business@colophon-group.org.
