Data Mining

Što je Data Mining:

Data mining je engleski termin povezan s računalnom znanošću čiji je prijevod rudarenje podataka . Sastoji se od funkcionalnosti koja objedinjuje i organizira podatke, pronalazeći u njima odgovarajuće uzorke, asocijacije, promjene i anomalije .

Pojam rudarenja podataka pojavio se 1990. godine u zajednicama baza podataka. Data mining je korak analize procesa poznat kao KDD ( Otkrivanje znanja u bazama podataka ), a njegov doslovni prijevod je "Otkrivanje znanja u bazama podataka".

Rudarstvo podataka može se podijeliti na nekoliko osnovnih koraka: istraživanje, izgradnja modela, definiranje uzorka i provjera valjanosti i provjere.

Data mining je relativno nova praksa u svijetu računalstva i koristi pronalaženje informacija, umjetnu inteligenciju, prepoznavanje uzoraka i statističke tehnike u potrazi za korelacijama između različitih podataka koji omogućuju stjecanje korisnog znanja za tvrtku ili pojedinca. Za tvrtku rudarenje podataka može biti važan alat koji poboljšava inovativnost i profitabilnost.

Upotreba rudarenja podataka je uobičajena u velikim bazama podataka, a krajnji rezultat njihova korištenja može se prikazati kroz pravila, hipoteze, stabla odlučivanja, dendrograme itd.

Dobro izvršeno rudarenje podataka trebalo bi izvršiti zadatke kao što su: otkrivanje nepravilnosti, učenje asocijacijskog pravila (modeliranje ovisnosti), klasteriranje, klasifikacija, regresija i sumiranje. Proces data mininga obično se događa korištenjem podataka sadržanih u skladištu podataka .

Postoji nekoliko tvrtki i softvera koji su posvećeni rudarstvu podataka, jer je prepoznavanje uzoraka u bazama podataka sve važnije. Međutim, utvrđivanje relevantnih standarda nije jedinstveno samo u svijetu računala. Ljudski mozak koristi sličan proces za prepoznavanje uzoraka i stjecanje znanja.

U posljednjih nekoliko godina, data mining je naširoko koristi u područjima znanosti i inženjerstva, kao što su bioinformatika, genetika, medicina, obrazovanje i elektrotehnika.

Koncept rudarenja podataka često je povezan s izvlačenjem informacija o ponašanju ljudi. Iz tog razloga, u nekim situacijama, rudarenje podataka pokreće pravna pitanja i pitanja vezana uz privatnost i etiku. Unatoč tome, mnogi tvrde da je rudarenje podataka etički neutralno jer nema etičkih implikacija.

Primjeri stvarnog prikupljanja podataka

Poduzeća i organizacije često koriste rudarenje podataka kako bi stekli znanje o korisnicima / zaposlenicima / klijentima. Na primjer, u javnom sektoru moguće je unakrsno provjeriti između bračnog statusa zaposlenika i plaće koju zarađuje kako bi se vidjelo utječe li to na njegov bračni život.

Tvrtke kao što su lanci supermarketa mogu koristiti ove unakrsne podatke za određivanje proizvoda koji se kupuju zajedno. Ako kupac koji kupi proizvod X kupuje i proizvod Y, dobro je postaviti dva proizvoda u blizini kako bi kupac lakše kupio.