1
DATA MINING – TEHNOLOGII DEDICATE EXTRAGERII
CUNOSTINTELOR
Obiective:
- însusirea tehnologiei Data Mining de extragere a cunostintelor din
colectiile de date existente;
- însusirea unor tehnici Data Mining pentru obtinerea unor solutii în
cadrul problemelor decizionale.
Concepte cheie: Data Mining; tehnici Data Mining.
Existenta unor volume
imense de date a pus problema reorientării utilizării lor de la un
proces de exploatare retrospectiv către unul prospectiv. Data Mining
poate avea mai multe definitii, însă toate converg în esentă către
miezul problemei, si anume că acest concept reprezintă un proces de
extragere de informatii noi din colectiile de date existente. Termenul
de dată are semnificatia de descriere a unui eveniment bine determinat
care se produce în lumea reală si este perfect verificabil.
Prin tehnologia Data
Mining se prelucrează date care referă perioade anterioare (date
istorice), care sunt examinate si sunt deja cunoscute, pe baza lor
constituindu-se un model. Acest model va putea fi aplicat situatiilor
noi de
acelasi tip cu cele deja cunoscute. Informatiile care se pot obtine
prin Data
Mining sunt predictive sau descriptive. De exemplu directionarea
actiunilor de
marketing pot constitui o problemă tipică predictivă. Detectarea
fraudelor
produse cu carduri bancare reprezintă o problemă tipică de aplicatie
descriptivă.
Dezvoltarea tehnicilor
de Data Mining se explică prin acumularea de volume pe care acestea
le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai
acerbă precum si cresterea exigentelor pietei au determinat firmele să
ia tot mai mult în considerare potentialul urias pe care îl oferă
arhivele de date. Alături de arhivele de date memorate pe suporturi
informatice mai există încă doi factori care au dus la necesitatea Data
Mining: existenta si perfectionarea algoritmilor si a produselor
program dedicate precum si cresterea capacitătii de memorare si
prelucrare a calculatoarelor care permit tratarea corelativă a
volumelor mari de date.
Este de remarcat că
depozitele de date pot fi surse pentru Data Mining, iar rezultatele
obtinute pot completa câmpurile înregistrărilor din depozitele de date,
care apoi pot fi valorificate prin proiectiile multidimensionale
specifice OLAP.
Potentialul oferit de
Data Mining se încorporează în procesele comerciale ale firmelor, iar
căutarea informatiilor nu devine un scop în sine ci este utilă doar
dacă este transformată ca actiune. Astfel firmele pot alege să
reactioneze sau nu la situatiile diverse create de realitate
(diminuarea numărului de clienti, scăderea vânzărilor, pierderea unor
piete de desfacere etc.). Pasul următor după această alegere este
exploatarea propriu-zisă a datelor utilizând diversi algoritmi.
De multe ori, actiunea
de Data Mining poate fi un esec si nu o reusită, fiind posibil ca
măsurile luate să nu fie adecvate informatiilor obtinute.
Toate elementele
considerate anterior conduc spre ideea de ciclu în utilizarea Data
Mining în cursul căruia sunt patru etape:
- definirea oportunitătilor comerciale si a datelor
- obtinerea de informatii din colectiile de date existente prin tehnici
Data Mining;
- adoptarea deciziilor si actiunilor în urma informatiilor rezultate;
- cuantificarea cât mai corectă a rezultatelor concrete pentru a
identifica si alte căi de exploatare a datelor.
Căutarea cunostintelor
si verificarea ipotezelor
Tehnicile de Data Mining se pot aplica atât ascendent, cât si
descendent. Pentru abordarea descendentă se iau în considerare
ipotezele formulate în prealabil prin alte mijloace. Abordarea
ascendentă urmăreste extragerea de cunostinte sau informatii noi din
date disponibile, această căutare putând fi dirijată sau nedirijată.
Căutarea dirijată
presupune că se ia în considerare un atribut sau un câmp, ale cărui
valori se explică prin celelalte câmpuri. Căutarea nedirijată
identifică relatiile sau structurile din datele examinate fără a
asigura prioritate unui câmp sau a altuia. Ceea ce se exploatează prin
Data Mining sunt colectii de date constituite pentru alte scopuri
(exemplu tranzactii derulate pe o perioadă de timp). Deseori la acest
tip de date se adaugă si cele provenite din alte surse cum statistici
oficiale care privesc evolutia în ansamblu a economiei, date privind
concurenta sau măsuri legislative. De aceea se foloseste tot mai des
notiunea de informatie ascunsă în sensul că este aproape imposibilă
detectarea corelatiilor sau raporturile pe care datele le încorporează
în mod intrinsec.
Rezultatele obtinute
sunt cu atât mai relevante cu cât ele se bazează pe un volum mare de
date. Datele pot fi exploatate pentru a obtine informatii prin diverse
tehnici cum sunt: retele neuronale, arbori de decizie, algoritmi
genetici, analiza grupurilor, rationamente bazate pe cazuri, analiza
legăturilor. Aceste tehnici pot fi asociate cu tehnici statistice cum
sunt regresiile sau analiza factorială. Data Mining nu este capabilă,
ca tehnică, să rezolve orice problemă de
gestiune. De fapt ceea ce poate oferi se rezumă la câteva actiuni cum
sunt:
clasificarea, estimarea, predictia, gruparea, analiza grupărilor, care
folosite la
locul potrivit pot deveni utile pentru o multime de probleme din
domeniul
decizional.
Destinatia si
caracteristicile actiunilor oferite de Data Mining
Clasificarea are ca
scop plasarea obiectelor prelucrate într-un grup limitat
de clase predefinite. De exemplu, vânzarea unui produs nou se poate
încadra într-una din următoarele categorii de risc: scăzut, mediu,
ridicat. Obtinute în mod clasificat vor fi reprezentate sub formă de
înregistrări care la rândul lor sunt
compuse din atribute sau câmpuri. Ca tehnici de Data Mining pentru
clasificare
sunt arborii de decizie si rationamentul bazat pe cazuri.
Estimarea va atribui o
valoare unei variabile pe baza celorlalte date de
intrare. Rezultatele obtinute în urma estimării sunt valori continue.
Pentru acest
tip de prelucrări se pot utiliza retelele neuronale.
Predictia poate clasa înregistrările luate în considerare în functie de
un
anumit comportament sau o valoare viitoare estimată. De aceea se va
recurge la
o colectie de exemple care vizează date din trecut, în care valorile
variabilei de
previzionat sunt deja cunoscute. Cu ajutorul lor se va construi un
model care va
putea explica comportamentul observat. Aplicând acest model
înregistrărilor
care fac obiectul prelucrării, se va obtine o predictie a
comportamentului sau a
valorilor acestora în viitor.
Gruparea poate duce la
determinarea acelor obiecte care apar cel mai
frecvent împreună. Un exemplu este „analiza cosului gospodăriei” în
evaluările
statistice.
Analiza grupului
urmăreste o dividere a populatiei eterogene în grupuri
mai omogene, care poartă numele de clustere.
În această tehnică nu
se pleacă de la un set predeterminat de clase si nici
din exemple din trecut. Segmentarea pe grupuri se face în functie de
similitudinile obiectelor.
Explorarea datelor – continut si etape
Programele care
realizează implementarea algoritmilor pentru Data Mining nu sunt
suficiente. Ele trebuie alimentate cu date care provin din diverse
surse organizate pentru alte scopuri. De aceea este necesar un proces
de curatare a acestora si de uniformizare pentru a fi explorate asa cum
sunt ele furnizate de programe, continutul lor trebuind a fi analizat
de specialisti care vor identifica informatiile utile pe care acestea
(rezultatele) le conŃin. Având în vedere aceste particularităti,
tehnicile de Data Mining se pot utiliza numai în procese specifice
complexe si de cele mai multe ori neliniare. Se pot astfel distinge
etapele:
- definirea problemei;
- identificarea surselor de date;
- colectarea si selectarea datelor;
- pregătirea datelor;
- definirea si construirea modelului;
- evaluarea modelului;
- integrarea modelului.
1
Definirea problemei constă în sesizarea unei oportunităti sau
necesităti de afaceri. De aceea se va delimita ceea ce urmează a fi
rezolvat prin Data Mining, obiective urmărire si rezultate scontate.
Problema ce urmează a fi rezolvată prin Data Mining este o parte
componentă a oportunitătii organizatiei, dar nu se identifică cu ea. De
asemenea problema trebuie să primească o formă adecvată pentru a putea
fi tratată cu această tehnică.
Identificarea surselor
de date constă în stabilirea structurii
generale a datelor necesare pentru rezolvarea problemei, precum si
regulile de constituire a acestora si localizarea lor. Fiecare sursă de
date va fi examinată pentru o familiarizare cu continutul său si pentru
identificarea incoerentelor sau a problemelor de definire.
Colectarea si selectia
datelor este etapa în care se face
extragerea si depunerea într-o bază comună a datelor care urmează a fi
utilizate ulterior.
Această etapă ocupă un timp mare, cam 80% din timpul total, iar
existenta
depozitelor de date constituie un real avantaj.
În functie de limitele
echipamentelor de calcul folosite, de
produsele program aplicate colectiilor de date si nu în ultimul rând de
bugetul disponibil se
poate prelucra întregul fond de date disponibil sau un esantion. Dacă
optiunea aleasă este dirijată spre lucrul cu esantionare, atunci
trebuie respectate toate
regulile si cerintele de selectare a acestora.
Pregătirea datelor.
Datele sunt de obicei stocate în colectii
de date care au fost construite pentru alte scopuri. De aceea firesc
este să existe o fază preliminară de pregătire înainte de extragere
prin Data Mining. Transformările la care sunt supuse datele pentru Data
Mining se referă la: valori extreme, valori lipsă, valori de tip text,
tabele. Tratarea valorilor extreme se poate face prin încadrarea între
anumite limite cuprinse între medie si un număr de abatere standard
prin excludere sau limitare sau prin izolarea vârfurilor.
În cazul valorilor
lipsă se pot elimina câmpurile cu valori nule din
înregistrări, sau se pot completa câmpurile cu date de valori medii,
deoarece
existenta lor poate duce la o functionare incorectă a algoritmilor de
Data Mining.
Valorile de tip text
ridică probleme întrucât separarea prin
spatii a cuvintelor duc la aparitia de valori diferite. Din acest motiv
este indicată eliminarea lor, dar dacă prelucrarea lor nu poate fi
eliminată, solutia cea mai pertinentă este de codificare prin tabele de
corespondente, în care să se evidentieze toate sirurile valide de
caractere.
Rezumarea se aplică
atunci când datele sunt considerate a
reprezenta detalii nesemnificative pentru rezolvarea problemei, sau
când numărul de exemple este insuficient.
Codificarea incoerentă
apare în momentul în care obiecte identice sunt
reprezentate diferit în unele din sursele utilizate.
Incompatibilitătile arhitecturale
informatice se referă la diferentele existente între modul de
reprezentare internă a valorilor datorat creării lor cu sisteme din
generatii diverse.
Definirea si
construirea modelului este etapa care se apropie
cel mai mult de notiunea de Data Mining si se referă la crearea
modelului informatic care va efectua exploatarea. Etapa de definire si
construire a modelului este însotită de faza de instruire sau învătare,
depinzând de tehnicile de Data Mining utilizate.
Indiferent de aceste
tehnici toate au de parcurs două etape: învătarea si
testarea. Învătarea presupune existenta unui set suficient de
reprezentativ de
exemple complete de la care se porneste pentru a identifica relatiile
de legătură
între valorile câmpurilor sau atributelor. Se consideră ca fiind
încheiat procesul
de învătare, în momentul în care rezultatele obtinute prin model se
apropie suficient de mult de solutiile continute de datele după care
s-a învătat. Nu întotdeauna rezultatele sunt cele scontate si atunci
modelul va fi supus testării cu
date diferite de cele folosite pentru învătare, dar care aparŃin
aceleiasi colecŃii. În
această etapă sunt formulate alte două obiective, si anume: obtinerea
de date preclasate si distribuirea acestora în seturi de învătare,
testare sau evaluare.
Evaluarea modelului
are ca scop de a determina corect valorile în care
modelul are capacitatea de a determina corect valorile pentru cazurile
noi.
Modelul va fi astfel aplicat asupra ultimei părti din datele preclasate
care sunt
dedicate evaluării. Procentul de eroare ce se stabileste acum va fi
considerat că
va fi acceptat si pentru datele noi.
Performantele unui
model se vor aprecia cu „matricea de confuzie” care
are rolul de a compara situatia reală cu cea pe care modelul o
furnizează. Integrarea modelului este etapa în care se finalizează
procesul, prin încorporarea modelului în SIAD ca element de bază, sau
prin includerea sa întrun
proces decizional general din organizatie.
Rationamentul bazat pe cazuri
Prin această tehnică
se caută o rezolvare a problemelor
apărute prin analogie cu experienta acumulată. Această metodă se poate
aplica pentru clasificări si pentru predictii. Cazurile pe care este
bazat rationamentul sunt memorate ca înregistrări compuse din setul de
atribute care descriu fiecare caz. Un caz nou este prezentat tot ca o
înregistrare, numai că în câmpurile în care valoarea trebuie
determinată sunt vide. Pentru a determina aceste valori se caută
înregistrările cu care înregistrarea „caz nou” se aseamănă si
continutul acestora se consideră a fi răspunsul. Prin urmare se poate
afirma că există două functii fundamentale de prelucrare:
a) măsurarea distantei dintre membrii fiecărui cuplu de înregistrări,
pentru a afla vecinele cele mai apropiate;
b) combinarea rezultatelor obtinute de la „vecine” în răspunsul propus
pentru cazul curent.
Măsurarea distantei
dintre câmpuri. Se numeste distantă
expresia modului în care se evaluează similitudinea. Distanta are ca
proprietăti: poate fi definită si se prezintă ca un număr real;
distanta de la un element la el însusi este totdeauna nulă; sensul de
măsurare este fără semnificatie în maniera că distanta de la elementul
A la elementul B este egală cu distanta de la B la A si nu există un
punct C intermediar lui A si B prin a cărei parcurgere să se scurteze
drumul de la A la B.
Ca moduri de calcul pentru distanta câmpurilor numerice se enumeră:
- diferenta între valoare absolută |A-B|;
- pătratul diferentei (A-B)2;
- diferenta între valoare absolută normalizată |A-B| (diferenta
maximă). Ultima variantă produce rezultate cu valori cuprinse între 0
si 1. Măsurarea distantei între înregistrări. Când apare necesitatea de
a considera simultan mai multe câmpuri ale înregistrării, se calculează
distanta pentru fiecare câmp în parte, iar rezultatul se combină într-o
valoare mică care reprezintă distanta înregistrării respective.
Se vor enumera câteva procedee de combinare a distantei câmpurilor:
însumarea, însumarea normalizată (suma distantelor/suma maximă),
distanta euclidiană (rădăcina pătrată din suma pătratelor distantelor).
Distanta euclidiană evidentiază cel mai bine înregistrările pentru care
toate câmpurile sunt vecine. Combinarea rezultatelor presupune aflarea
celor mai apropiati vecini, iar solutia problemei se obtine prin
combinarea răspunsurilor obtinute de la acestia.
Fiecare vecin poate
avea diverse variante de răspuns, dar se
vor lua în calcul doar cei care sunt mai apropiati. Rezultatul ce
obtine majoritatea va fi atribuit cazului curent. Cerinta minimă este
ca numărul votantilor să fie impar, pentru a
evita situatiile de nedeterminare.
Metodele care se
bazează pe vot dau rezultate satisfăcătoare în situatiile în
care răspunsurile asteptate sunt de tip enumerativ. O altă solutie
posibilă este interpolarea valorilor înregistrărilor vecine care însă
introduce o aplatizare a rezultatelor care se înscriu între cele două
limite folosite în calcul. De asemenea,
se poate constata că rezultate bune se obtin prin metode de regresie
statistică aplicate asupra valorilor date de vecinii cei mai apropiati.
Se obtine ecuatia unei
drepte sau a unei curbe care permite calcularea mai precisă a valorilor
aferente
cazului curent.
Se poate concluziona
că rationamentul bazat pe cazuri este o
tehnică de Data Mining suficient de bună si care se poate aplica unui
mare număr de probleme, caz în care conduce la solutii acceptabile.
Toate acestea sunt valabile dacă volumul de date pe care se bazează
este bine ales si concludent. Ca avantaje pentru această metodă se pot
enumera:
- aplicarea unui mare număr de tipuri de date, pe structuri de date
complexe, iar câmpurile tip text sunt mai bine tratate decât în alte
tehnici;
- luarea în considerare a oricât de multor câmpuri;
- rezultatele obtinute sunt explicite;
- elementele de noutate care apar în procesul de învătare sunt usor de
înglobat si de folosit în rationamente.
Ca orice metodă
prezintă si unele dezavantaje dintre care se pot mentiona:
volumul mare de memorie si resursă timp de prelucrare relativ mare, si
de
asemenea, timpul de prelucrarea mare pentru aplicarea functiilor de
distantă
asupra tuturor înregistrărilor si câmpurilor necesare pentru obtinerea
rezultatelor.
Cele mai ok referate! www.referateok.ro |