Datu ieguves darbs ietver tīmekļa pārmeklēšanu, izmantojot instrumentus, piemēram, Nutch un citu atbilstošu programmatūru.
Darbs ietver arī daudzus web skrāpējumus, izmantojot python un citus saistītus rīkus, rūpējoties par dažādām situācijām - tīmekļa vietnē tiek izmantoti skripti, piemēram, javascripts vai ajax.
Liels datu analīze, izmantojot instrumentus, piemēram, Hadoop, ir arī šī darba daļa.
Mēs izmantojam MongoDB datubāzi lielākai daļai datu uzglabāšanas mērķu. Tādēļ ir prasība, lai datu ieguves attīstītājam būtu labas zināšanas par MongoDB atsevišķu lietošanu un to integrēšanu ar citām programmām.
Neatkarīgi no citiem MongoDB, darbs ietver arī citas lielas datu bāzes, kas vajadzīgas problēmu risināšanai.
Datu ieguves uzdevums ietver arī trešās puses API dokumentācijas lasīšanu un pēc tam funkcionalitātes integrēšanu uzņēmuma patentētajā programmā.
Darbs ietver arī rakstisku kodējumu, kas balstīts uz statistikas jēdzieniem, tāpēc ir sagaidāms, ka datu ieguves attīstītājam būs labas zināšanas par statistiku.
Vēl viena prasība, lai ikviens kandidāts, kas piesakās uz šo darbu, ir zināšanas par versiju kontroles programmatūru, piemēram, Git, un ar to saistītām tēmām, jo mēs tās plaši izmantojam.
Ubuntu Linux versija tiek izmantota mūsu uzņēmumā visu programmatūras izstrādē. Tādēļ jums ir ļoti labi jāzina, kā to izmantot.
Jums nav jāzina visas iepriekš minētās tēmas. Bet jums jau kādu laiku būtu bijis jābūt vismaz python koderam, lai pārliecinātos, ka jūs patiešām esat kaislīgs par datu ieguves attīstītāju.
Ja iepriekš minētais mūsu datu ieguves darba atvēršanas apraksts jums interesē, lūdzu, iesniedziet to tālāk.