Pagina iniziale | Navigazione |
Google

Data Warehouse

Nonostante il termine data warehouse (DW) sia diventato molto di moda negli ultimi anni ed un gran numero di aziende stia implementando o per implementare sistemi di DW, non esiste una unanime definizione di magazzino di dati.

Secondo alcuni autori il DW č semplicemente un sinonimo di database fisico (relazionale o multidimensionale) che contiene dati; secondo altri, il DW può essere definito come un ambiente con strutture dati finalizzate al supporto delle decisioni, fisicamente separato dai sistemi operazionali. Entrambe le definizioni, tuttavia, sembrano abbastanza limitanti e non in grado di spiegare a fondo il concetto.

Inmon, che per primo ha parlato esplicitamente di data warehouse, invece, lo definisce come una raccolta di dati integrata, subject oriented, time variant e non-volatile di supporto ai processi decisionali. Quindi, l’integrazione dei dati di un DW costituisce una delle premesse necessarie che ne consentono una progettazione adeguata e che lo distinguono da ogni altro sistema di supporto alle decisioni.

Secondo Inmon la raccolta di dati č:

  • Integrata: requisito fondamentale di un data warehouse č l’integrazione della raccolta dati. Nel data warehouse confluiscono dati provenienti da piů sistemi transazionali e da fonti esterne. L’obiettivo dell’integrazione può essere raggiunto percorrendo differenti strade: mediante l’utilizzo di metodi di codifica uniformi, mediante il perseguimento di una omogeneitĂ  semantica di tutte le variabili, mediante l’utilizzo delle stesse unitĂ  di misura;
  • subject oriented: perchĂŠ il DW č orientato a temi specifici dell’azienda piuttosto che alle applicazioni o alle funzioni. In un DW i dati vengono archiviati in modo che possano essere facilmente letti o elaborati dagli utenti. L’obiettivo, quindi, non č piů quello di minimizzare la ridondanza mediante la normalizzazione ma quello di fornire dati che abbiano una struttura in grado di favorire la produzione di informazioni. Si passa dalla progettazione per funzioni alla modellazione dei dati al fine di consentire una visione multidimensionale degli stessi;
  • time variant: i dati archiviati all’interno di un DW hanno un orizzonte temporale molto piů esteso rispetto a quelli archiviati in un sistema operazionale. Nel DW sono contenute una serie di informazioni relative alle aree di interesse che colgono la situazione relativa ad un determinato fenomeno in un determinato intervallo temporale piuttosto esteso. Ciò, tuttavia, comporta che i dati contenuti in un DW sono aggiornati fino ad una certa data, che nella maggior parte dei casi, č antecedente a quella in cui l’utente interroga il sistema.

Situazione del tutto differente, al contrario, si manifesta in un transazionale in cui i dati corrispondono sempre ad una situazione costantemente aggiornata che tuttavia non fornisce un quadro storico del fenomeno analizzato;
  • non-volatile: tale caratteristica indica la non modificabilitĂ  dei dati contenuti nel DW che consente accessi in sola lettura. Comporta, inoltre, una maggiore semplicitĂ  di progettazione del database rispetto a quella di un database relazionale che supporta una applicazione transazionale. In tale contesto non si fronteggiano le possibili anomalie dovute agli aggiornamenti e tanto meno si ricorre a strumenti complessi per gestire l’integritĂ  referenziale o per bloccare record a cui possono accedere altri utenti in fase di aggiornamento.

Il data warehouse, quindi, descrive il processo di acquisizione, trasformazione e distribuzione di informazioni presenti all’interno o all’esterno delle aziende come supporto ai ‘’decision maker’’.

Esso si differenzia, però, in modo sostanziale dai normali sistemi gestionali che, al contrario, hanno il compito di automatizzare le operazioni di routine.

Inoltre, si può notare che la definizione di Inmon precedentemente citata introduce un concetto di assoluta indifferenza rispetto alle caratteristiche architetturali dei sistemi transazionali e alla dislocazione fisica dei dati nei diversi database.

Se il focus viene posto sulla capacità di supportare il processo decisionale, il data warehouse può essere costruito secondo modalità differenti che vanno da una logica completamente accentrata, a una logica completamente distribuita.

Table of contents
1 Le componenti e l'architettura del Data Warehouse
2 Data transformation layer
3 DATA PREPARATION AND STORAGE LAYER
4 Data interpretation and analysis layer
5 Data presentation layer (DW applications)
6 Gli ambiti applicativi del data warehouse

Le componenti e l'architettura del Data Warehouse

Le principali componenti dell’architettura sono:

Il data warehouse viene strutturato su quattro livelli architetturali:

  • qualitĂ  dei dati: č il livello che presiede all’acquisizione e alla validazione dei dati nel data warehouse;
  • preparazione e "stoccaggio" dati: č il livello che presiede alla delivery dei dati agli utenti e alle applicazioni analitiche;
  • interpretazione e analisi dati: č il livello, ad elevato valore aggiunto, che presiede alla trasformazione dei dati in informazioni ad elevato valore strategico;
  • presentazione dati: č il livello, a basso valore aggiunto, che presiede alla presentazione finale agli utenti delle informazioni e quindi delle risposte cercate.

Questi quattro livelli ‘operativi’ del data warehouse possono esistere sotto due condizioni fondamentali:

  • l’esistenza di una adeguata organizzazione di supporto al processo, con ruoli e responsabilitĂ  chiaramente definiti. Esattamente come e forse piů delle applicazioni transazionali un sistema di ‘’decision support’’ necessita di figure organizzative con la responsabilitĂ  di mantenerlo, soprattutto in chiave evolutiva, per far sĂŹ che esso sia costantemente allineato alle esigenze degli utenti di business, condizione necessaria e sufficiente perchĂŠ continui ad esistere;
  • il giusto rilievo alla tecnologia di supporto al processo, composta di scelte equilibrate e basate sulle esigenze funzionali del processo stesso. La tecnologia č particolarmente cruciale per il data warehouse, date le problematiche di system integration che esso porta con sĂŠ. La gestione costante della variabile tecnologica č uno dei fattori critici di successo del data warehouse, a partire dalle scelte iniziali per arrivare alla gestione operativa degli upgrade e degli ampliamenti della piattaforma.

Da un punto di vista architetturale il data warehouse č un sistema periferico, non č cioč fisicamente residente sul sistema informativo centrale. Il motivo di ciò va ricercato nel peculiare tipo di attivitĂ  svolto: una piattaforma di tipo transazionale č maggiormente orientata all’esecuzione costante di operazioni di update, ragione per cui l’ottimizzazione viene fatta soprattutto sull‘I/O; una piattaforma di decision support invece deve essere ottimizzata per effettuare un numero limitato di query particolarmente complesse. L’unica eccezione a tale regola può essere rappresentata da soluzioni di tipo mainframe, ove la possibilitĂ  di definire macchine virtuali all’interno della stessa machina fisica rende possibile la coesistenza sullo stesso server fisico delle applicazioni transazionali e delle applicazioni di decision support.

Vediamo ora, da un punto di vista fisico, come č fatta un’architettura di data warehousing.

Data transformation layer

L’architettura di data warehousing vera e propria inizia dallo strato denominato data transformation, cioč dall’insieme di applicazioni che svolgono l’attivitĂ  di estrazione, trasformazione e caricamento dei dati dai sistemi transazionali alimentanti verso il data warehouse.

La fase di estrazione dei dati dai sistemi alimentanti viene nella maggior parte dei casi implementata utilizzando i linguaggi proprietari delle piattaforme alimentanti. Si tratta per lo piů di query ad hoc, parametrizzate per quanto riguarda l’arco temporale, eseguite periodicamente solitamente nei momenti di minore attivitĂ  del sistema.

La fase di ‘’’trasformazione’’’, quella a piů elevato valore aggiunto tra le tre contenute in questo layer applicativo, applica regole di integrazione, trasformazione e ‘’cleansing’’ (business rule) ai dati estratti dai sistemi alimentanti. È in questo layer che molto spesso si gioca la credibilitĂ  dei dati del data warehouse presso gli utenti. Nella maggior parte dei casi i dati estratti dai sistemi transazionali sono o incompleti o comunque non adatti a prendere decisioni in quanto non coerenti con le analisi da effettuarsi.

In alcuni casi le operazioni di trasformazione possono risultare nella casistica del ‘’reject’’: cioč dell’impossibilitĂ , salvo intervento umano, di accettare parte del flusso alimentante per l’eccessiva e non risolvibile ‘impurità’ dei dati alimentanti.

Le trasformazioni possono essere di vari tipi:

DATA PREPARATION AND STORAGE LAYER

Questo livello coincide con il massimo dettaglio disponibile (in termini di dati) all’interno del sistema di data warehousing.

Una volta che i dati hanno superato il ‘’quality layer’’ vengono ‘stoccati’ in questo livello architetturale per garantire due tipi di utilizzi:

  • la creazione di sintesi informative per gli utenti (data mart e aggregazioni) mediante procedure ad hoc che vengono solitamente innescate (in termini di update) dalla completa esecuzione delle operazioni di estrazione, trasformazione e caricamento;
  • l’esecuzione di analisi avanzate basate prevalentemente su algoritmi di tipo statistico che richiedono l’operativitĂ  sul massimo dettaglio disponibile dei dati per restituire risultati significativi.

Data interpretation and analysis layer

A questo livello dell’architettura del sistema di data warehousing troviamo oggetti tra loro molto diversi per funzione e tecnologia. Le tre funzionalità base espletate da questo livello architetturale sono: aggregazione, analisi e interpretazione.

‘’’Aggregazione’’’ 
La funzionalità di ‘’’aggregazione’’’ provvede a costruire sintesi decisionali partendo dai dati di dettaglio presenti nel layer precedentemente descritto. Qui si deve fare una importante precisazione architetturale.

In una situazione in cui non esiste il data warehouse gli utenti sono costretti ad accedere ai sistemi legacy per ottenere le informazioni loro necessarie.

In alcuni casi si può decidere di estrarre dai sistemi legacy una o piů sintesi (data mart) per gli utenti che effettueranno l’analisi su di esse. In questa situazione, anche se la tecnologia e l’architettura assomigliano molto a quelle di un data warehouse, l’impossibilitĂ  di arrivare a dati di dettaglio superiore di quello delle sintesi disponibili (drill-through) ne riduce la potenza informativa.

Peraltro il data warehouse non va necessariamente considerato come una base dati a cui tutti gli utenti accedono liberamente per le proprie analisi. Questo può essere vero dove gli utenti siano particolarmente addestrati e, comunque sia, ha delle serie controindicazioni in quanto le risorse hardware necessarie per supportare un elevato numero di utenti che eseguono ‘’query multijoin’’ sono difficilmente prevedibili e pianificabili. Molti presunti progetti di Warehousing falliscono proprio perché ci si limita a ‘portare dentro i dati ’ senza però di fatto renderli disponibili agli utenti meno esperti.

La situazione ideale č quella in cui esiste un data warehouse centrale che contiene tutti i dati al minimo livello di dettaglio richiesto per effettuare analisi avanzate e per costruire aggregazioni per tutti gli utenti. In questo caso i data mart possono essere o ‘’’tematici’’’ (cioč contenenti tutte le informazioni riguardo un certo soggetto) o per ‘’’gruppi specifici di utenti’’’.

Questa strategia architetturale fa del data warehouse un vero processo di ‘’information delivery’’, ove la richiesta di altre e diverse sintesi decisionali comporta non giĂ  la costruzione di altri flussi di alimentazione ma piuttosto la creazione di altri data mart. Lo sviluppo di nuovi flussi generanti nuovi data mart č un’attivitĂ  routinaria di gestione del data warehouse. La differenza con quanto si dovrebbe fare utilizzando i sistemi legacy č essenzialmente di costo: generare un nuovo data mart all’interno di un’architettura di warehousing ha costi e tempi di sviluppo e di controllo qualitĂ  dei dati nettamente inferiore.

‘’’Analisi e interpretazione’’’ La funzionalità di ‘’’analisi’’’ consente di effettuare indagini sulle aggregazioni costruite dal sistema. Tipicamente le funzionalità di analisi di un data warehouse sono supportate da tecnologia di tipo ‘’’OLAP’’’ (On-Line Analytical Processing).

L’OLAP č essenzialmente un approccio tecnologico ai processi decisionali che si focalizza sull’analisi dimensionale delle informazioni. Le sue caratteristiche principali sono:

  • ‘’’č orientato agli utenti di business:’’’ il business č fatto a ‘’dimensioni’’ e non a ‘’tabelle’’ e chi analizza e tenta di comprenderlo ragiona appunto per dimensioni; č per questo che una volta intuiti i due concetti fondamentali (‘’’dimensione e gerarchia’’’) qualsiasi utente di business č in grado di utilizzare uno strumento OLAP;
  • ‘’’č pensato per la risoluzione di problemi non strutturati’’’: a differenza dei tradizionali strumenti di reporting che presentano giĂ  le risposte preconfezionate, gli strumenti OLAP stimolano le domande e consentono analisi di causa-effetto. Ciò avviene grazie alla loro struttura che permette la navigazione tra le informazioni utilizzando le gerarchie e le relazioni tra le informazioni stesse come ‘sentieri’;
  • ‘’’si focalizza sulle informazioni:’’’ i motori OLAP non sono di per sĂŠ strumenti di presentazione delle informazioni ma architetture ottimizzate di data storage e navigazione; ne segue che tutto ciò che un utente trova in questo ambiente sono solo le informazioni di cui ha bisogno, organizzate secondo la logica delle dimensioni di analisi di business;
  • (conseguentemente) ‘’’crea efficienza:’’’ ovviamente il risultato netto di tutto ciò č l’efficienza creata da questi sistemi con la loro capacitĂ  di andare dal generale al particolare e di aiutare l’utente a trovare l’informazione necessaria in base a percorsi logici e non ‘scartabellando’.

Le funzioni di base di uno strumento OLAP sono:

  • ‘’’Slicing:’’’ č l’operazione di rotazione delle dimensioni di analisi. È un’operazione fondamentale se si desidera analizzare totali ottenuti in base a dimensioni diverse o se si vogliono analizzare aggregazioni trasversali;
  • ‘’’Dicing:’’’ č l’operazione di ‘estrazione’ di un subset di informazioni dall’aggregato che si sta analizzando. L’operazione di dicing viene eseguita quando l’analisi viene focalizzata su una ‘fetta del cubo ’ di particolare interesse per l’analista. In alcuni casi l’operazione di dicing può essere ‘fisica’ nel senso che non consiste solo nel filtrare le informazioni di interesse ma magari nell’estrarle dall’aggregato generale per distribuirne i contenuti;
  • ‘’’Drill-down:’’’ č l’operazione di ‘esplosione’ del dato nelle sue determinanti. L’operazione di drill-down può essere eseguita seguendo due tipologie di ‘sentiero’: la ‘’’gerarchia’’’ costruita sulla dimensione di analisi (p. es.: passaggio dalla famiglia di prodotti all’insieme dei prodotti che ne fanno parte) oppure la ‘’’relazione matematica’’’ che lega un dato calcolato alle sue determinanti (p. es.: passaggio dal margine al ricavo e costo che lo generano). Si può comprendere l’importanza di tale operazione ai fini analitici in termini di comprensione delle determinanti di un dato;
  • ‘’’Drill-across:’’’ č l’operazione mediante la quale si naviga attraverso uno stesso livello nell’ambito di una gerarchia. Come visto precedentemente il passaggio dalla famiglia di prodotti alla lista dei prodotti č un’operazione di drill-down, il passaggio da una famiglia ad un’altra famiglia č un’operazione di drill-across;
  • ‘’’Drill-through:’’’ concettualmente simile al drill-down, č l’operazione mediante la quale si passa da un livello aggregato al livello di dettaglio appartenente alla base dati normalizzata. Molti software vendor proclamano che i loro prodotti hanno la capacitĂ , mediante l’operazione di drill-through, di passare dal data warehouse ai sistemi transazionali alimentanti. Tale operazione, anche se tecnicamente fattibile sotto una serie di condizioni abbastanza rilevanti, č poco sensata per le problematiche di security e di performance indotti nei sistemi transazionali stessi.

I punti deboli degli strumenti OLAP sono:

  • ‘’’InaccessibilitĂ /difficoltĂ  ad accedere al livello atomico del dato:’’’ gli strumenti OLAP funzionano molto bene su dati di sintesi, non č conveniente usarli su dati analitici;
  • ‘’’Sistemi di backup / restore / security / rollback non molto sofisticati o inesistenti:’’’ pur essendo in molti casi dei motori database, gli strumenti OLAP non hanno ancora raggiunto il livello di completezza dei database relazionali, principalmente perchĂŠ, a differenza di questi ultimi, non hanno un paradigma concettuale di riferimento come la teoria di Codd, ma sono soggetti alle interpretazioni dei diversi software vendor;
  • ‘’’Richiede una struttura denormalizzata per funzionare in maniera efficiente:’’’ i motori OLAP generano grandi masse di dati per il semplice fatto che per migliorare le performance di accesso sono costretti a memorizzare chiavi ridondanti e sommarizzazioni;
  • ‘’’(Potenziale) significativa generazione e proliferazione di codice SQL:’’’ nel caso in cui il database su cui vengono effettuate le analisi OLAP non sia multidimensionale (MOLAP) ma sia relazionale (ROLAP), ognuna delle operazioni sopra descritte (slicing, dicing, drilling) comporta la generazione e l’esecuzione di query SQL estremamente complesse e richiedenti grandi capacitĂ  di elaborazione.

Data presentation layer (DW applications)

Questo livello, ingiustamente considerato il piů importante da chi pensa che costruire un sistema di decision support voglia dire disegnare degli spettacolari report layout, contiene tutti i sistemi di presentazione delle informazioni agli utenti.

I sistemi appartenenti a questo layer architetturale possono essere raggruppati in tre grandi categorie:

  • ‘’’strumenti specialistici di Business Intelligence:’’’ in questa categoria, molto vasta in termini di soluzioni presenti sul mercato, troviamo strumenti di query building, strumenti di navigazione OLAP (OLAP viewer) e, in un’accezione molto lata del concetto, anche i Web browser, che per la veritĂ  stanno diventando sempre piů l’interfaccia universale per diverse applicazioni;
  • ‘’’strumenti di Office Automation:’’’ sempre piů i software vendor presenti con le loro soluzioni nel layer architetturale precedente indicano come soluzioni di front-end gli ordinari strumenti del lavoro quotidiano, come word processor e fogli elettronici. È ovvio che per molti utenti poco esperti che si avvicinano per la prima volta al data warehouse questa sia una soluzione psicologicamente rassicurante in quanto non sono costretti ad imparare nuovi e complessi strumenti. Il problema consiste nel fatto che tale soluzione č ideale per questioni di produttivitĂ  ed efficienza, lo č meno per l’utilizzo intensivo del data warehouse, dal momento che questi strumenti, in tale caso, hanno significativi limiti architetturali e funzionali;
  • ‘’’strumenti di grafica e publishing:’’’ in questo caso ciò che prevale ancora una volta č una considerazione di efficienza e produttivitĂ : gli strumenti Business Intelligence hanno la capacitĂ  di generare grafici e tabelle per i propri utenti, la soluzione in oggetto serve sostanzialmente ad evitare inefficienti doppi passaggi.

Un data warehouse comprende diversi livelli di dati:

  • ‘’’Dati attuali di dettaglio’’’: sono i dati al massimo livello di dettaglio che si ritiene possano essere utili ai processi decisionali, sulla base delle esigenze note e di quelle ragionevolmente prevedibili. In realtĂ , questa parte comprende non solo i dati propriamente attuali (cioč validi al momento dell’interrogazione), ma anche una certa finestra temporale di dati storici. Oltre all’eventuale prima aggregazione, i dati di questo livello hanno giĂ  subito rispetto ai dati operativi tutte le altre operazioni: filtraggio delle informazioni non necessarie, interrogazione delle informazioni da fonti diverse, trasformazione rispetto allo schema dati del data warehouse.
  • ‘’’Dati storici di dettaglio’’’: i dati di dettaglio che superano la finestra temporale del dato “attuale” ma che rientrano comunque nella finestra temporale del data warehouse vengono collocati su supporti meno impegnativi e costosi, ma anche meno comodamente accessibili.
  • ‘’’Dati aggregati’’’: la presenza dei dati aggregati nel data warehouse deriva da considerazioni di efficienza e praticitĂ  nella risposta alle richieste degli utenti; infatti tutte le informazioni ricavabili dai dati aggregati sono in teoria ricavabili dai dati di dettaglio, ma ciò richiederebbe di volta in volta il loro ri-calcolo. In questo modo, però, non potranno essere soddisfatte esigenze non previste che richiedano aggregazioni diverse da quelle predisposte, ma a questo scopo sono comunque conservati i dati di dettaglio.

Gli ambiti applicativi del data warehouse

Del data warehouse ne parlano in molti ma lo praticano in pochi, e questo č un motivo che rende difficile identificare e motivare le aree applicative del data warehouse.

Nelle banche e in generale nelle istituzioni finanziarie gli ambiti di utilizzo sono molteplici, poichĂŠ tutte le aree gestionali di tali organizzazioni sono caratterizzate da volumi considerevoli di dati su cui devono essere prese decisioni strategiche. PoichĂŠ il data warehouse può avere un valore strategico, all’interni di tali tipi di organizzazioni č fondamentale per il management definire una strategia per il data warehouse. La strategia per il data warehouse č essenzialmente un percorso evolutivo che porta l’azienda da applicazioni DW non ‘mission-critical’ a una situazione in cui il data warehouse č una componente fondamentale del sistema informativo aziendale.

La strategia di data warehousing di un’azienda può essere classificata in base a due dimensioni fondamentali:

  • utilizzo del DW esistente: livello di maturitĂ  degli utenti e delle funzioni di supporto del DW nell’utilizzo dell’esistente;
  • utilizzo prospettico del DW: obiettivi strategici di utilizzo del DW come piattaforma di decision support.

Tutte le aziende attraversano dunque quattro fasi nella storia dell’utilizzo del data warehouse:

  • la prima fase, chiamata supporto (basso utilizzo del DW esistente, basso utilizzo prospettico del DW), č la fase in cui si trovano le aziende che hanno fallito uno o piů progetti di warehousing e non pensano di ampliarne l’utilizzo prospettico. In questa fase si possono trovare anche aziende che non hanno un DW e non stanno pensando di realizzarlo;
  • la seconda fase, chiamata ‘’’opportunità’’’ (basso utilizzo del DW esistente, alto utilizzo prospettico del DW), č la fase in ci si trovano le aziende che, pur avendo fallito uno o piů progetti di warehousing o avendo semplicemente esplorato la tematica senza approfondirla, puntano a sviluppare le attivitĂ  di decision support tramite il data warehouse. In questa fase possono trovarsi anche aziende che non hanno un data warehouse ma stanno pensando di realizzarlo;
  • la terza fase (alto utilizzo del DW esistente, alto utilizzo prospettico del DW), č quella fase in cui il data warehouse diviene ‘’’strategico’’’ per i processi decisionali aziendali. In questa fase si trovano tutte quelle aziende che hanno con successo intrapreso un progetto di warehousing e che ne stanno sfruttando a pieno le potenzialitĂ ;
  • la quarta fase, chiamata ‘’’factory’’’ (alto utilizzo del DW esistente, basso utilizzo prospettico del DW) č la fase in cui si trovano tutte le aziende in cui il data warehouse č maturo, la metodologia di implementazione consolidata e tutte le aree decisionali critiche sono presidiate. In questa fase l’imperativo principale č l’efficienza e il risparmio di costi derivanti dal data warehouse e nel suo utilizzo. Un processo di sclerotizzazione nell’uso del data warehouse può in alcuni casi far tornare l’azienda alla prima fase.

Individuiamo ora quali sono le aree applicative piů indicate per il data warehouse nel settore finanziario.

Controllo di gestione

Questa può essere l’area applicativa di base per un sistema di data warehousing in qualunque organizzazione. In questo caso il data warehouse viene utilizzato sostanzialmente come piattaforma di reporting e analisi di redditivitĂ . È inutile e pericoloso ipotizzare di realizzare un data warehouse solo per il controllo di gestione. Tale iniziativa ha senso solo se questo č il primo passo evolutivo nella strategia di data warehousing dell’azienda. Infatti, costruire un data warehouse per il controllo di gestione consente di analizzare e risolvere rapidamente esigenze estremamente rilevanti ed il cui beneficio č immediatamente chiaro, affrontando problemi (a livello di struttura, validazione e calcolo dei dati) estremamente noti nella loro struttura.

Risk e Asset Management

Un’altra area applicativa di estremo interesse č identificabile nelle attivitĂ  di Risk e Asset Management, soprattutto in due attivitĂ  ben specifiche: l’analisi e la simulazione dei portafogli e dei relativi rischi; il reporting.

Tali aree applicative sono di particolare importanza e strategicitĂ  ed il data warehouse č lo strumento appropriato per affrontarle, anche per la possibilitĂ  di integrare al suo interno dati provenienti anche da fonti esterne all’azienda. In questo caso il data warehouse va dotato di strumentistica di analisi avanzata e basata su algoritmi statistici di analisi e simulazione.

Un’altra sotto-area di grande interesse può essere lo sviluppo di sistemi di individuazione delle frodi. Anche in questo caso č necessario il ricorso a strumentazione di tipo statistico per l’implementazione di questo genere di applicazione.

Database di marketing

Non necessariamente il data warehouse č lo strumento appropriato per affrontare e risolvere questo tipo di esigenza a meno che esiste la necessitĂ  di immagazzinare e gestire rilevanti masse di dati. In molti casi il database di marketing č banalmente un’anagrafica clienti arricchita di alcune informazioni “non amministrative”, in casi piů avanzati diventa uno strumento fondamentale di supporto al ‘’marketing one-to-one’’. In questo caso il database di marketing costituisce una base di informazioni fondamentale per ‘’targettare’’ correttamente campagne e iniziative promozionali o per attivare servizi avanzati di ‘’customer care’’. In questo caso, data la rilevante massa di dati da gestire, il data warehouse può diventare la piattaforma tecnologica ideale.

Nel settore bancario il marketing one-to-one č ancora allo stadio embrionale, almeno dal punto di vista del marketing centrale, e questo č dovuto al fatto che molto spesso il marketing one-to-one viene fatto dalla filiale, l’unica struttura aziendale in grado storicamente di instaurare un rapporto fiduciario con il cliente finale che identifica nello ‘sportello’ e nel suo ‘impiegato’ l’azienda.

Supporto Call Center

Anche in questo caso il data warehouse č un’opzione tecnologica, non l’unica praticabile e non necessariamente la piů economica. Utilizzare un’architettura di data warehousing a supporto di un’attivitĂ  di Call Center ha sicuramente senso nel caso in cui le richieste non sono necessariamente di tipo strutturato e quindi risolvibili con il classico “inquiry a terminale”. È evidente però che la tipologia di utente per questo tipo di sistema č piů evoluto del normale operatore di ‘’Call Center’’.

Knowledge Base

Anche in questo caso valgono le considerazioni fatte per il Database di Marketing: non necessariamente il data warehouse č la tecnologia piů idonea per questo tipo di esigenza, ma lo diventa nel momento in cui la conoscenza in oggetto č costituita prevalentemente da informazioni strutturate e preferibilmente numeriche. In questo caso, anche dal punto di vista tecnologico, un database relazionale č sicuramente la soluzione piů idonea, efficiente ed economica. Non č cosĂŹ se invece le informazioni sono di tipo destrutturato, in questo caso la soluzione piů adatta č una piattaforma di groupware. Si deve però fare attenzione a non confondersi con i cosiddetti database multimediali: il fatto che un database relazionale abbia funzionalitĂ  multimediali non significa che sia un data warehouse. Infatti, ciò che distingue un data warehouse da ciò che non lo č, non č la tecnologia utilizzata, ma l’architettura applicativa e il disegno della base di dati.

Product Engineering

Il data warehouse può essere anche una piattaforma decisionale per l’analisi e la concettualizzazione di nuovi prodotti da offrire alla clientela e/o per aggredire nuovi mercati o segmenti di mercato. Tale funzionalitĂ  č ovviamente supportata se il data warehouse č dotato non solo di strumenti di analisi dei risultati, ma anche di ambienti di simulazione che consentono la costruzione ed il testing ‘in laboratorio’ di nuove soluzioni da proporre ai clienti. In tali ambienti č possibile individuare alcuni importanti aspetti come la marginalitĂ , il punto di pareggio economico, il segmento di clientela interessato, i meccanismi di cannibalizzazione, l’elasticitĂ  della domanda e l’impatto sull’equilibrio finanziario aziendale.

Sistema informativo di marketing

Si tratta di utilizzare il data warehouse come una sorta di ‘backbone’ per supportare una serie di applicazioni integrate orientate alle analisi commerciali e di marketing. Gli aspetti fondamentali che caratterizzano questo tipo di architettura sono essenzialmente due:

L’idea di fondo del sistema informativo di marketing č quella di sviluppare un percorso evolutivo che parta dal reporting di base per arrivare ad analisi avanzate passando attraverso sistemi di analisi del portafoglio prodotti e clienti e procedure di budgeting e simulazione.

@-business

La diffusione del canale digitale nel settore finanziario pone sicuramente una serie di problemi e di opportunità assolutamente nuove. In primo luogo questo tipo di canale implica una velocità di cambiamento e quindi di reazione nettamente superiore. Il data warehouse può essere lo strumento analitico che consente di cogliere dinamiche all’interno di rilevanti masse di transazioni on-line. In secondo luogo l’informazione può essere uno strumento di supporto o l’oggetto stesso della transazione e in questo caso il data warehouse può essere la piattaforma utilizzata per coprire tale ambito applicativo.

Il data warehouse può essere quindi di supporto a sistemi di trading on-line sia dal punto di vista dell’analisi che dal punto do viste dell’architettura dati.

L’utilizzo del data warehouse č diventato molto rilevante anche in ambito statistico, tanto da esser considerato un elemento chiave della visione di produzione statistica. Il data warehouse č un sistema delle informazioni dove i dati sono organizzati e strutturati per un facile accesso da parte dell’utente e per supportare i processi della decisione. I seguenti sistemi sono abilitati dal data warehouse:

Il primo č utilizzato per risolvere specifici problemi, mentre il secondo per soddisfare ad una continua circolazione dei dati che non dipende da problemi specifici.

Il data warehouse č un sistema OLAP (come accennato precedentemente) che differisce dai sistemi OLTP (On Line Transaction Processing), sebbene i dati provengono dal secondo. I sistemi OLAP sono sistemi subject-oriented, sono integrati, storici e permanenti. Non comprendono dati analitici e statici come i sistemi OLTP, inoltre i dati OLAP non sono dati ad uso corrente, e vengono usati per analisi.

Un data warehouse č sempre diviso dal suo ambiente operativo e comprende tutti i dati dell’ambiente operativo. I dati del data warehouse non vengono mai cambiati; sono memorizzati all’inizio e messi a disposizione, e non sono aggiornati mai come nei sistemi OLTP. Prima di essere memorizzati nel data warehouse, i dati sono integrati seguendo diverse strategie.

La fonte dei dati per un sistema delle decisioni (come data warehouse) č un sistema operativo, anche se la prima non č una pura copia del secondo: i dati in un sistema delle decisioni sono filtrati, classificati dal tempo, sono inclusi valori sommarizzati e sono cambiati prima di essere caricati nel data warehouse. In particolare, per i microdati, i dati sono riassunti in due livelli di aggregazione diversi: il primo livello (‘’primo livello di data mart’’) specifica l’unitĂ  del tempo, e nel secondo livello (‘’data mart finale’’) sono memorizzati permanentemente soltanto dati a piů alta frequenza. CosĂŹ, se i dati sono acceduti piů frequentemente, il livello di sommarizzazione č piů elevato. In altre parole, č memorizzato un numero piů piccolo di dati, e l’accesso ai dati č piů veloce ed efficiente.

I principali approcci per sviluppare un ambiente di data warehouse sono due: il primo č basato sulla creazione di un data warehouse centrale, usando dati dal sistema principale ed altre fonti. Questo data warehouse centrale può essere utilizzato poi per creare/ aggiornare data warehouse dipartimentali o data mart locali. Il secondo approccio č basato sulla creazione di data mart indipendenti, ognuno memorizzato direttamente dal sistema centrale e altre fonti dei dati.

L’approccio di un data warehouse centrale può iniziare con un semplice data warehouse, diffuso col tempo per soddisfare utenti con crescenti richieste e diventare un ambiente che contiene sistemi di data warehouse collegati. In un semplice ambiente di data warehouse le aree che hanno necessità di essere monitorate sono tre:

  • l’estrazione e la trasformazione dei dati dai sistemi operativi;
  • la base di dati del data warehouse;
  • i tools per l’esplorazione dei dati.

È necessario monitorare la rete che provvede all’accesso agli utenti. Ci sono di solito almeno tre repository per i metadati e per le altre informazioni collegate: uno per descrivere la struttura dei dati, per la loro trasformazione e per l’estrazione dei dati; uno per il database del data warehouse; ed uno o piů per gli strumenti di navigazione. Questi repository devono essere curati, sia individualmente che nelle totalitĂ . I dati nell’ambiente del database del data warehouse dovrebbero essere maneggiati con la stessa cura. La complessitĂ  di questo compito dipende dalla complessitĂ  del database scelto, ma include copie di backup, recovery, riorganizzazioni, archiviazioni, operazioni di monitoraggio e tuning. Sono creati sub-set di dati dipartimentali o locali (data marts) per migliorare la performance delle consultazioni dell’utente e ridurre dipendenza sul data warehouse. Questo livello supplementare di dati aumenta la complessitĂ  di gestione dell’ambiente: aggiunge un altro livello di metadati e possibilmente un altro repository, richiede controllo e gestione della distribuzione dei dati dei data mart, e, a meno che l’amministrazione dei data mart sia completamente devoluta a livello locale, richiede anche la gestione di dati del database del data mart. La situazione diventa anche piů difficile se l’ambiente evolve ulteriormente tramite la creazione di data warehouse multipli. In alcuni di questi casi, le complessitĂ  di amministrazione diventano opprimenti.

Nell’approccio di data mart indipendenti, la creazione di un solo data mart orientato a risolvere un particolare problema rappresenta una soluzione semplice. Le tre aree da amministrare sono:

  • l’estrazione dei dati dalle fonti e la trasformazione nelle strutture dei dati corrette per il database del data mart;
  • il database del data mart stesso;
  • i tools di sfruttamento.

PoichĂŠ questo ambiente non contiene volumi grandi di data warehouse č piů maneggevole. Nel caso si adotti una tale semplice soluzione di data mart nella realizzazione di data warehouse e nell’organizzazione, il compito dell’amministratore sarebbe relativamente facile. Questo approccio non si ferma di solito con un data mart e, una volta che vengono aggiunti altri data mart, la situazione diventa piů complicata. Il compito di portare un numero di data mart separati in un solo ambiente di data warehouse č estremamente difficile. Ogni data mart viene sviluppato di solito individualmente. Tali data mart hanno il potenziale di diventare parte del sistema centrale. In questo modo, possono porre il problema di discordanze nella definizione dei dati che il data warehouse č stato disegnato per risolvere. Questa situazione poco attraente si evita solamente se esiste una sola architettura di amministrazione dello sviluppo del sistema.

È probabile che il data warehouse contenga volumi molto grandi di dati, non sempre attinente a tutti gli utenti. Lavorare attraverso questi volumi di dati non correlati può essere inefficiente e consuma molto tempo nell’esecuzione. In questa situazione č possibile suddividere il data warehouse in specifiche aree di interesse.

Inoltre, molti tool per lo sfruttamento dei dati creano i loro primi ambienti, ognuno col proprio repository. Tale repository contiene le informazioni richieste per l’esplorazione dei dati. Se il data warehouse č amministrato centralmente, questi ambienti devono essere incorporati nella struttura centrale della gestione. Anche dove la responsabilitĂ  dell’amministrazione dei tool di sfruttamento dei dati č a livello dell’utente locale, č richiesto un collegamento tra il sistema di amministrazione di data warehouse centrale e gli ambienti distribuiti. Questo collegamento č necessario per assicurare che i cambiamenti dei tool degli ambienti distribuiti possono essere identificati anche centralmente.


GNU Fdl - it.Wikipedia.org




Google | 

Enciclopedia |  La Divina Commedia di Dante |  Mappa | : A |  B |  C |  D |  E |  F |  G |  H |  I |  J |  K |  L |  M |  N |  O |  P |  Q |  R |  S |  T |  U |  V |  W |  X |  Y |  Z |