Roboti ya injini ya utafutaji inawajibika kwa kutambaa kwenye kurasa za wavuti. Programu inasoma kiatomati data kutoka kwa wavuti zote na kuziandikisha kwa fomu ambayo inaeleweka kwa injini ya utaftaji yenyewe, ili baadaye mfumo uonyeshe matokeo yanayofaa zaidi kwa mtumiaji.
Kazi
Habari zote zilizoorodheshwa zimeandikwa kwenye hifadhidata ya kawaida.
Robot ya utaftaji ni mpango ambao husafiri kiotomatiki kupitia kurasa za mtandao, ukiuliza nyaraka zinazohitajika na kupokea muundo wa tovuti zilizotambaa. Roboti kwa hiari huchagua kurasa zinazopaswa kuchunguzwa. Katika hali nyingi, tovuti za kuchanganua huchaguliwa kwa nasibu.
Aina za Bot
Roboti inayofanya kazi vibaya inaongeza sana mzigo kwenye mtandao na seva, ambayo inaweza kusababisha rasilimali kutopatikana.
Kila injini ya utaftaji ina programu kadhaa zinazoitwa roboti. Kila mmoja wao anaweza kufanya kazi maalum. Kwa mfano, huko Yandex, roboti zingine zinawajibika kwa kukagua milisho ya habari ya RSS, ambayo itakuwa muhimu kwa kuorodhesha blogi. Pia kuna mipango ambayo hutafuta tu picha. Walakini, jambo muhimu zaidi ni bot ya indexing, ambayo ndio msingi wa utaftaji wowote. Kuna pia robot inayosaidia haraka iliyoundwa iliyoundwa kutafuta sasisho kwenye milisho ya habari na hafla.
Utaratibu wa skanning
Njia nyingine ya kuzuia kutambaa kwa yaliyomo ni kuunda ufikiaji wa wavuti kupitia jopo la usajili.
Wakati wa kutembelea wavuti, programu inakagua mfumo wa faili kwa uwepo wa faili za maagizo ya robots.txt. Ikiwa kuna hati, usomaji wa maagizo yaliyoandikwa kwenye waraka huanza. Robots.txt inaweza kuzuia au, kinyume chake, kuruhusu skanning ya kurasa fulani na faili kwenye wavuti.
Mchakato wa skanning inategemea aina ya programu. Wakati mwingine roboti husoma tu vichwa vya ukurasa na aya chache. Katika hali nyingine, skanning hufanywa kwenye hati yote kulingana na markup ya HTML, ambayo inaweza pia kufanya kazi kama njia ya kubainisha misemo muhimu. Programu zingine zina utaalam katika lebo za siri au za meta.
Inaongeza kwenye orodha
Kila msimamizi wa wavuti anaweza kuzuia injini ya utaftaji kutoka kwenye kurasa zinazotambaa kupitia robots.txt au lebo ya META. Pia, mtengenezaji wa wavuti anaweza kuongeza tovuti kwa foleni ya kuorodhesha, lakini kuiongeza haimaanishi kuwa roboti itatambaa mara moja kwenye ukurasa unaotakiwa. Ili kuongeza wavuti kwenye foleni, injini za utaftaji pia hutoa viunga maalum. Kuongeza tovuti kunaharakisha sana mchakato wa kuorodhesha. Pia, kwa usajili wa haraka katika injini ya utaftaji, mifumo ya uchambuzi wa wavuti, saraka za wavuti, n.k inaweza kutumika.