1
DATA MINING – TEHNOLOGII DEDICATE EXTRAGERII
CUNOSTINTELOR
Obiective:
- �nsusirea tehnologiei Data Mining de extragere a cunostintelor din
colectiile de date existente;
- �nsusirea unor tehnici Data Mining pentru obtinerea unor solutii �n
cadrul problemelor decizionale.
Concepte cheie: Data Mining; tehnici Data Mining.
Existenta unor volume
imense de date a pus problema reorientării utilizării lor de la un
proces de exploatare retrospectiv către unul prospectiv. Data Mining
poate avea mai multe definitii, �nsă toate converg �n esentă către
miezul problemei, si anume că acest concept reprezintă un proces de
extragere de informatii noi din colectiile de date existente. Termenul
de dată are semnificatia de descriere a unui eveniment bine determinat
care se produce �n lumea reală si este perfect verificabil.
Prin tehnologia Data
Mining se prelucrează date care referă perioade anterioare (date
istorice), care sunt examinate si sunt deja cunoscute, pe baza lor
constituindu-se un model. Acest model va putea fi aplicat situatiilor
noi de
acelasi tip cu cele deja cunoscute. Informatiile care se pot obtine
prin Data
Mining sunt predictive sau descriptive. De exemplu directionarea
actiunilor de
marketing pot constitui o problemă tipică predictivă. Detectarea
fraudelor
produse cu carduri bancare reprezintă o problemă tipică de aplicatie
descriptivă.
Dezvoltarea tehnicilor
de Data Mining se explică prin acumularea de volume pe care acestea
le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai
acerbă precum si cresterea exigentelor pietei au determinat firmele să
ia tot mai mult �n considerare potentialul urias pe care �l oferă
arhivele de date. Alături de arhivele de date memorate pe suporturi
informatice mai există �ncă doi factori care au dus la necesitatea Data
Mining: existenta si perfectionarea algoritmilor si a produselor
program dedicate precum si cresterea capacitătii de memorare si
prelucrare a calculatoarelor care permit tratarea corelativă a
volumelor mari de date.
Este de remarcat că
depozitele de date pot fi surse pentru Data Mining, iar rezultatele
obtinute pot completa c�mpurile �nregistrărilor din depozitele de date,
care apoi pot fi valorificate prin proiectiile multidimensionale
specifice OLAP.
Potentialul oferit de
Data Mining se �ncorporează �n procesele comerciale ale firmelor, iar
căutarea informatiilor nu devine un scop �n sine ci este utilă doar
dacă este transformată ca actiune. Astfel firmele pot alege să
reactioneze sau nu la situatiile diverse create de realitate
(diminuarea numărului de clienti, scăderea v�nzărilor, pierderea unor
piete de desfacere etc.). Pasul următor după această alegere este
exploatarea propriu-zisă a datelor utiliz�nd diversi algoritmi.
De multe ori, actiunea
de Data Mining poate fi un esec si nu o reusită, fiind posibil ca
măsurile luate să nu fie adecvate informatiilor obtinute.
Toate elementele
considerate anterior conduc spre ideea de ciclu �n utilizarea Data
Mining �n cursul căruia sunt patru etape:
- definirea oportunitătilor comerciale si a datelor
- obtinerea de informatii din colectiile de date existente prin tehnici
Data Mining;
- adoptarea deciziilor si actiunilor �n urma informatiilor rezultate;
- cuantificarea c�t mai corectă a rezultatelor concrete pentru a
identifica si alte căi de exploatare a datelor.
Căutarea cunostintelor
si verificarea ipotezelor
Tehnicile de Data Mining se pot aplica at�t ascendent, c�t si
descendent. Pentru abordarea descendentă se iau �n considerare
ipotezele formulate �n prealabil prin alte mijloace. Abordarea
ascendentă urmăreste extragerea de cunostinte sau informatii noi din
date disponibile, această căutare put�nd fi dirijată sau nedirijată.
Căutarea dirijată
presupune că se ia �n considerare un atribut sau un c�mp, ale cărui
valori se explică prin celelalte c�mpuri. Căutarea nedirijată
identifică relatiile sau structurile din datele examinate fără a
asigura prioritate unui c�mp sau a altuia. Ceea ce se exploatează prin
Data Mining sunt colectii de date constituite pentru alte scopuri
(exemplu tranzactii derulate pe o perioadă de timp). Deseori la acest
tip de date se adaugă si cele provenite din alte surse cum statistici
oficiale care privesc evolutia �n ansamblu a economiei, date privind
concurenta sau măsuri legislative. De aceea se foloseste tot mai des
notiunea de informatie ascunsă �n sensul că este aproape imposibilă
detectarea corelatiilor sau raporturile pe care datele le �ncorporează
�n mod intrinsec.
Rezultatele obtinute
sunt cu at�t mai relevante cu c�t ele se bazează pe un volum mare de
date. Datele pot fi exploatate pentru a obtine informatii prin diverse
tehnici cum sunt: retele neuronale, arbori de decizie, algoritmi
genetici, analiza grupurilor, rationamente bazate pe cazuri, analiza
legăturilor. Aceste tehnici pot fi asociate cu tehnici statistice cum
sunt regresiile sau analiza factorială. Data Mining nu este capabilă,
ca tehnică, să rezolve orice problemă de
gestiune. De fapt ceea ce poate oferi se rezumă la c�teva actiuni cum
sunt:
clasificarea, estimarea, predictia, gruparea, analiza grupărilor, care
folosite la
locul potrivit pot deveni utile pentru o multime de probleme din
domeniul
decizional.
Destinatia si
caracteristicile actiunilor oferite de Data Mining
Clasificarea are ca
scop plasarea obiectelor prelucrate �ntr-un grup limitat
de clase predefinite. De exemplu, v�nzarea unui produs nou se poate
�ncadra �ntr-una din următoarele categorii de risc: scăzut, mediu,
ridicat. Obtinute �n mod clasificat vor fi reprezentate sub formă de
�nregistrări care la r�ndul lor sunt
compuse din atribute sau c�mpuri. Ca tehnici de Data Mining pentru
clasificare
sunt arborii de decizie si rationamentul bazat pe cazuri.
Estimarea va atribui o
valoare unei variabile pe baza celorlalte date de
intrare. Rezultatele obtinute �n urma estimării sunt valori continue.
Pentru acest
tip de prelucrări se pot utiliza retelele neuronale.
Predictia poate clasa �nregistrările luate �n considerare �n functie de
un
anumit comportament sau o valoare viitoare estimată. De aceea se va
recurge la
o colectie de exemple care vizează date din trecut, �n care valorile
variabilei de
previzionat sunt deja cunoscute. Cu ajutorul lor se va construi un
model care va
putea explica comportamentul observat. Aplic�nd acest model
�nregistrărilor
care fac obiectul prelucrării, se va obtine o predictie a
comportamentului sau a
valorilor acestora �n viitor.
Gruparea poate duce la
determinarea acelor obiecte care apar cel mai
frecvent �mpreună. Un exemplu este „analiza cosului gospodăriei” �n
evaluările
statistice.
Analiza grupului
urmăreste o dividere a populatiei eterogene �n grupuri
mai omogene, care poartă numele de clustere.
�n această tehnică nu
se pleacă de la un set predeterminat de clase si nici
din exemple din trecut. Segmentarea pe grupuri se face �n functie de
similitudinile obiectelor.
Explorarea datelor – continut si etape
Programele care
realizează implementarea algoritmilor pentru Data Mining nu sunt
suficiente. Ele trebuie alimentate cu date care provin din diverse
surse organizate pentru alte scopuri. De aceea este necesar un proces
de curatare a acestora si de uniformizare pentru a fi explorate asa cum
sunt ele furnizate de programe, continutul lor trebuind a fi analizat
de specialisti care vor identifica informatiile utile pe care acestea
(rezultatele) le conŃin. Av�nd �n vedere aceste particularităti,
tehnicile de Data Mining se pot utiliza numai �n procese specifice
complexe si de cele mai multe ori neliniare. Se pot astfel distinge
etapele:
- definirea problemei;
- identificarea surselor de date;
- colectarea si selectarea datelor;
- pregătirea datelor;
- definirea si construirea modelului;
- evaluarea modelului;
- integrarea modelului.
1
Definirea problemei constă �n sesizarea unei oportunităti sau
necesităti de afaceri. De aceea se va delimita ceea ce urmează a fi
rezolvat prin Data Mining, obiective urmărire si rezultate scontate.
Problema ce urmează a fi rezolvată prin Data Mining este o parte
componentă a oportunitătii organizatiei, dar nu se identifică cu ea. De
asemenea problema trebuie să primească o formă adecvată pentru a putea
fi tratată cu această tehnică.
Identificarea surselor
de date constă �n stabilirea structurii
generale a datelor necesare pentru rezolvarea problemei, precum si
regulile de constituire a acestora si localizarea lor. Fiecare sursă de
date va fi examinată pentru o familiarizare cu continutul său si pentru
identificarea incoerentelor sau a problemelor de definire.
Colectarea si selectia
datelor este etapa �n care se face
extragerea si depunerea �ntr-o bază comună a datelor care urmează a fi
utilizate ulterior.
Această etapă ocupă un timp mare, cam 80% din timpul total, iar
existenta
depozitelor de date constituie un real avantaj.
�n functie de limitele
echipamentelor de calcul folosite, de
produsele program aplicate colectiilor de date si nu �n ultimul r�nd de
bugetul disponibil se
poate prelucra �ntregul fond de date disponibil sau un esantion. Dacă
optiunea aleasă este dirijată spre lucrul cu esantionare, atunci
trebuie respectate toate
regulile si cerintele de selectare a acestora.
Pregătirea datelor.
Datele sunt de obicei stocate �n colectii
de date care au fost construite pentru alte scopuri. De aceea firesc
este să existe o fază preliminară de pregătire �nainte de extragere
prin Data Mining. Transformările la care sunt supuse datele pentru Data
Mining se referă la: valori extreme, valori lipsă, valori de tip text,
tabele. Tratarea valorilor extreme se poate face prin �ncadrarea �ntre
anumite limite cuprinse �ntre medie si un număr de abatere standard
prin excludere sau limitare sau prin izolarea v�rfurilor.
�n cazul valorilor
lipsă se pot elimina c�mpurile cu valori nule din
�nregistrări, sau se pot completa c�mpurile cu date de valori medii,
deoarece
existenta lor poate duce la o functionare incorectă a algoritmilor de
Data Mining.
Valorile de tip text
ridică probleme �ntruc�t separarea prin
spatii a cuvintelor duc la aparitia de valori diferite. Din acest motiv
este indicată eliminarea lor, dar dacă prelucrarea lor nu poate fi
eliminată, solutia cea mai pertinentă este de codificare prin tabele de
corespondente, �n care să se evidentieze toate sirurile valide de
caractere.
Rezumarea se aplică
atunci c�nd datele sunt considerate a
reprezenta detalii nesemnificative pentru rezolvarea problemei, sau
c�nd numărul de exemple este insuficient.
Codificarea incoerentă
apare �n momentul �n care obiecte identice sunt
reprezentate diferit �n unele din sursele utilizate.
Incompatibilitătile arhitecturale
informatice se referă la diferentele existente �ntre modul de
reprezentare internă a valorilor datorat creării lor cu sisteme din
generatii diverse.
Definirea si
construirea modelului este etapa care se apropie
cel mai mult de notiunea de Data Mining si se referă la crearea
modelului informatic care va efectua exploatarea. Etapa de definire si
construire a modelului este �nsotită de faza de instruire sau �nvătare,
depinz�nd de tehnicile de Data Mining utilizate.
Indiferent de aceste
tehnici toate au de parcurs două etape: �nvătarea si
testarea. �nvătarea presupune existenta unui set suficient de
reprezentativ de
exemple complete de la care se porneste pentru a identifica relatiile
de legătură
�ntre valorile c�mpurilor sau atributelor. Se consideră ca fiind
�ncheiat procesul
de �nvătare, �n momentul �n care rezultatele obtinute prin model se
apropie suficient de mult de solutiile continute de datele după care
s-a �nvătat. Nu �ntotdeauna rezultatele sunt cele scontate si atunci
modelul va fi supus testării cu
date diferite de cele folosite pentru �nvătare, dar care aparŃin
aceleiasi colecŃii. �n
această etapă sunt formulate alte două obiective, si anume: obtinerea
de date preclasate si distribuirea acestora �n seturi de �nvătare,
testare sau evaluare.
Evaluarea modelului
are ca scop de a determina corect valorile �n care
modelul are capacitatea de a determina corect valorile pentru cazurile
noi.
Modelul va fi astfel aplicat asupra ultimei părti din datele preclasate
care sunt
dedicate evaluării. Procentul de eroare ce se stabileste acum va fi
considerat că
va fi acceptat si pentru datele noi.
Performantele unui
model se vor aprecia cu „matricea de confuzie” care
are rolul de a compara situatia reală cu cea pe care modelul o
furnizează. Integrarea modelului este etapa �n care se finalizează
procesul, prin �ncorporarea modelului �n SIAD ca element de bază, sau
prin includerea sa �ntrun
proces decizional general din organizatie.
Rationamentul bazat pe cazuri
Prin această tehnică
se caută o rezolvare a problemelor
apărute prin analogie cu experienta acumulată. Această metodă se poate
aplica pentru clasificări si pentru predictii. Cazurile pe care este
bazat rationamentul sunt memorate ca �nregistrări compuse din setul de
atribute care descriu fiecare caz. Un caz nou este prezentat tot ca o
�nregistrare, numai că �n c�mpurile �n care valoarea trebuie
determinată sunt vide. Pentru a determina aceste valori se caută
�nregistrările cu care �nregistrarea „caz nou” se aseamănă si
continutul acestora se consideră a fi răspunsul. Prin urmare se poate
afirma că există două functii fundamentale de prelucrare:
a) măsurarea distantei dintre membrii fiecărui cuplu de �nregistrări,
pentru a afla vecinele cele mai apropiate;
b) combinarea rezultatelor obtinute de la „vecine” �n răspunsul propus
pentru cazul curent.
Măsurarea distantei
dintre c�mpuri. Se numeste distantă
expresia modului �n care se evaluează similitudinea. Distanta are ca
proprietăti: poate fi definită si se prezintă ca un număr real;
distanta de la un element la el �nsusi este totdeauna nulă; sensul de
măsurare este fără semnificatie �n maniera că distanta de la elementul
A la elementul B este egală cu distanta de la B la A si nu există un
punct C intermediar lui A si B prin a cărei parcurgere să se scurteze
drumul de la A la B.
Ca moduri de calcul pentru distanta c�mpurilor numerice se enumeră:
- diferenta �ntre valoare absolută |A-B|;
- pătratul diferentei (A-B)2;
- diferenta �ntre valoare absolută normalizată |A-B| (diferenta
maximă). Ultima variantă produce rezultate cu valori cuprinse �ntre 0
si 1. Măsurarea distantei �ntre �nregistrări. C�nd apare necesitatea de
a considera simultan mai multe c�mpuri ale �nregistrării, se calculează
distanta pentru fiecare c�mp �n parte, iar rezultatul se combină �ntr-o
valoare mică care reprezintă distanta �nregistrării respective.
Se vor enumera c�teva procedee de combinare a distantei c�mpurilor:
�nsumarea, �nsumarea normalizată (suma distantelor/suma maximă),
distanta euclidiană (rădăcina pătrată din suma pătratelor distantelor).
Distanta euclidiană evidentiază cel mai bine �nregistrările pentru care
toate c�mpurile sunt vecine. Combinarea rezultatelor presupune aflarea
celor mai apropiati vecini, iar solutia problemei se obtine prin
combinarea răspunsurilor obtinute de la acestia.
Fiecare vecin poate
avea diverse variante de răspuns, dar se
vor lua �n calcul doar cei care sunt mai apropiati. Rezultatul ce
obtine majoritatea va fi atribuit cazului curent. Cerinta minimă este
ca numărul votantilor să fie impar, pentru a
evita situatiile de nedeterminare.
Metodele care se
bazează pe vot dau rezultate satisfăcătoare �n situatiile �n
care răspunsurile asteptate sunt de tip enumerativ. O altă solutie
posibilă este interpolarea valorilor �nregistrărilor vecine care �nsă
introduce o aplatizare a rezultatelor care se �nscriu �ntre cele două
limite folosite �n calcul. De asemenea,
se poate constata că rezultate bune se obtin prin metode de regresie
statistică aplicate asupra valorilor date de vecinii cei mai apropiati.
Se obtine ecuatia unei
drepte sau a unei curbe care permite calcularea mai precisă a valorilor
aferente
cazului curent.
Se poate concluziona
că rationamentul bazat pe cazuri este o
tehnică de Data Mining suficient de bună si care se poate aplica unui
mare număr de probleme, caz �n care conduce la solutii acceptabile.
Toate acestea sunt valabile dacă volumul de date pe care se bazează
este bine ales si concludent. Ca avantaje pentru această metodă se pot
enumera:
- aplicarea unui mare număr de tipuri de date, pe structuri de date
complexe, iar c�mpurile tip text sunt mai bine tratate dec�t �n alte
tehnici;
- luarea �n considerare a oric�t de multor c�mpuri;
- rezultatele obtinute sunt explicite;
- elementele de noutate care apar �n procesul de �nvătare sunt usor de
�nglobat si de folosit �n rationamente.
Ca orice metodă
prezintă si unele dezavantaje dintre care se pot mentiona:
volumul mare de memorie si resursă timp de prelucrare relativ mare, si
de
asemenea, timpul de prelucrarea mare pentru aplicarea functiilor de
distantă
asupra tuturor �nregistrărilor si c�mpurilor necesare pentru obtinerea
rezultatelor.
Cele mai ok referate! www.referateok.ro |