Kamis, 03 Desember 2009

Bahan Data Warehouse

Wargabasdat2009’s Blog

 

Just another WordPress.com weblog

Home

The Basdaters !

 

Data Warehouse

June 9, 2009

 

oleh Samsu Sempena / 13507088

 

Post #1 (dirilis : 9 Juni 2009) — pengertian, sejarah ,arsitektur

Post #2 (dirilis : 23 Juni 2009) — ilustrasi, metode penyimpanan, metode perancangan

Post #3 (dirilis : 2 Juli 2009) — sifat data warehouse,perbandingan dengan OLTP, perbandingan dengan sistem operasional

Post #4 (dirilis : 24 Juli 2009) — komponen dan skema data warehouse

Post #5 (dirilis : 7 Agustus 2009) — Keuntungan,kelebihan,dan aplikasi data warehouse

 

Post  #1 (9 Juni 2009)

Dalam postingan pertama untuk tugas eksplorasi mengenai data warehouse akan dibahas mengenai data warehouse : apa itu data warehouse, sejarahnya, dan arsitektur dasarnya.

 

Data warehouse adalah sebuah repositori atau tempat penyimpanan data secara elektronis yang dimiliki sebuah organisasi. Data warehouse juga dirancang untuk dapat memfasilitasi pembuatan laporan dan analisis.

 

Sekalipun demikian, data warehouse tidak hanya berfokus pada penyimpanan data, tapi sebuah sistem data warehouse memiliki komponen-komponen esensial seperti menerima (retrieve), menganalisis (analyze) data, mengekstrak (extract), mengubah (transform), meload data, dan juga mengatur data dictionary. Sehingga definisi lebih luas dari data warehouse mencakup kakas kecerdasan bisnis (business intelligence tools), kakas untuk mengekstrak (tools to ekstrak), mengubah (transform), dan menerima data (load) ke penyimpanan (repository), serta mengelola dan menerima metadata.Tahun            Peristiwa

1960    General Mills dan Dartmouth College dalam riset bersama mengembangkan istilah dimensi dan fakta

1970    ACNielsen dan IRI menyediakan data dimensional untuk pembelian secara eceran

1983    Teradata memperkenalkan Database Management System (DBMS) yang dirancang khusus untuk dukungan pengambilan keputusan

1988    Barry Devlin dan Paul Murphy mempublikasikan artikel “An architecture for a business and information systems” di jurnal IBM System saat mereka memperkenalkan istilah “business data warehouse”

1990    Red Brick Systems memperkenalkan Red Brick Warehouse, sebuah DBMS khusus untuk data warehouse

1991    Prism Solutions memperkenalkan Prism Warehouse Manager, sebuah perangkat lunak untuk mengembangkan data warehouse

1991    Bill Inmon mempublikasikan buku “Building the Data Warehouse”

1995    Dibangunnya Institut Data Warehousing

1996    Ralph Kimball mempublikasikan buku “The Data Warehouse Toolkit”

1997    Oracle 8, dengan support untuk query bintang (star queries) dirilis

 

 

Arsitektur Data Warehouse

 

Arsitektur dalam konteks organisasi data warehouse adalah konsep bagaimana data warehouse dibangun. Tidak ada arsitektur yang benar maupun salah, melainkan berbagai arsitektur ada untuk mendukung berbagai situasi dan kondisi. Arsitektur yang baik akan berimbas pada pembangunan, pemeliharaan, dan penggunaan dari data warehouse.

 

Namun, pada umumnya arsitektur data warehouse akan memiliki lapisan-lapisan berikut :

Operational database layer (lapisan basis data operasional)

Sumber data untuk data warehouse

Data access layer (lapisan akses data)

Antarmuka antara lapisan operasional dan akses informasi

Kakas untuk mengekstrak, mengubah, dan meload data

Metadata layer(lapisan metadata)

Direktori data

Umumnya lebih detail daripada direktori data sistem

Ada kamus untuk keseluruhan warehouse dan terkadang ada kamus untuk data yang dapat diakses oleh reporting khusus dan kakas untuk analisis

Informational access layer (lapisan akses informasi)

Akses data dan juga kakas untuk reporting,analisis

Kakas intelejensia bisnis (Business Intelligence) termasuk ke lapisan ini

 

post #2 (23 Juni 2009)

 

 

 

Umumnya data warehouse diperlukan oleh perusahaan besar yang memiliki banyak cabang dan memiliki sejumlah besar data atau struktur perusahaan yang kompleks. Mengapa demikian?

 

decision maker

 

Bayangkanlah sebuah perusahaan jual-beli yang memiliki banyak cabang, atau perusahaan asuransi yang memiliki data dari ribuan cabang lokal. Tentunya data-data yang dimiliki tersebar di banyak lokasi yang berbeda, sistem operasi yang berbeda, atau disimpan dengan skema yang berbeda. Sebagai contoh, data produksi dan data keluhan pelanggan disimpan di sistem database yang berbeda. Lalu akan diambil suatu keputusan untuk perusahaan tersebut oleh pembuat keputusan (decision maker). Pembuat keputusan itu tentunya membutuhkan akses ke semua sumber data yang ada. Namun dengan melakukan query ke setiap sumber individual tentunya tidak praktis dan tidak efisien. Atau sumber data mungkin hanya menyimpan data terkini, sementara pembuat keputusan perlu mengakses data-data terdahulu pada perusahaan itu. Misalnya saja informasi mengenai pola penjualan yang berubah dari tahun-tahun lalu merupakan pertimbangan penting dalam mengambil keputusan. Nah, data warehouse menyediakan solusi bagi masalah ini.

 

Bagaimana prinsip penyimpanan data dalam data warehouse?

 

Ada 2 pendekatan utama untuk menyimpan data dalam data warehouse :

 

1. Pendekatan dimensional

 

Pada pendekatan ini, data transaksi dipartisi menjadi fakta (umumnya data transaksi yang numeric) atau dimensi (referensi ke informasi dari fakta)

 

Sebagai contoh:

 

Data penjualan dapat dipisahkan menjadi fakta seperti jumlah produk yang dipesan dan harga yang dibayarkan untuk setiap produk. Dan menjadi dimensi, seperti tanggal pemesanan, nama pembeli, nomor produk, petugas yang bertanggung jawab atas pemesanan tersebut, dll.

 

(+) data warehouse akan lebih mudah untuk digunakan dan dimengerti oleh pengguna

 

(+) penerimaan data dari data warehouse dilakukan dengan sangat cepat

 

(-) untuk mempertahankan integritas dari fakta dan dimensi, meload data warehouse dari sistem operasi yang berbeda-beda menjadi kompleks

 

(-)akan sulit untuk mengubah struktur data warehouse jika organisasi tersebut perubahan dalam cara melakukan bisnisnya

 

2. Pendekatan normalisasi

 

Pada pendekatan ini, data dalam data warehouse disimpan berdasarkan aturan normalisasi data. Tabel dikelompokkan berdasarkan kategori (seperti pelanggan, produk, keuangan,dll).

 

(+)Mudah untuk menambahkan informasi ke database

 

(-)karena banyaknya table yang terlibat maka akan sulit bagi pengguna untuk menggabungkan data dari sumber yang berbeda menjadi informasi atau untuk mengakses informasi tanpa benar-benar mengerti isi dari sumber data dan struktur data dari data warehouse.

 

Sekalipun demikian, kedua pendekatan ini tidaklah benar-benar terpisah satu sama lain. Pendekatan dimensional juga dapat melibatkan pendekatan normalisasi sampai pada tingkat tertentu.

 

 

 

Metode perancangan data warehouse

 

1. Perancangan bottom-up

 

Ralph Kimball,seorang pakar dalam data warehousing adalah pendukung dari pendekatan perancangan data warehouse yang disebut bottom-up. Disebut bottom-up karena pertama-tama data pada cabang/pasar dibuat lebih dulu untuk menyediakan kapabilitas laporan dan analisis untuk proses bisnis tertentu. Data cabang ini dapat dikombinasikan untuk membuat sebuah data warehouse.

 

(+) nilai bisnis dapat dikembalikan secepat data cabang pertama dibuat. (kecepatan)

 

(-) sulit untuk memastikan kekonsistenan dimensi dari kesemua data cabang.

 

 

 

2. Perancangan top-down

 

Bill Inmon seorang penulis pertama mengenai data warehouse mendefinisikan data warehouse sebagai repository pusat untuk keseluruhan enterprise/perusahaan. Inmon merupakan pendukung dari pendekatan perancangan data warehouse yang disebut top-down, dimana data warehouse dirancang menggunakan data model enterprise yang telah dinormalisasi.

 

(+) Metode perancangan top-down menghasilkan dimensional view yang konsisten dari semua data yang berasal dari data cabang karena semua data cabang diload dari repository terpusat.

 

(+)Perancangan top-down telah membuktikan dirinya sanggup menghadapi perubahan pada bisnis, membuat data dimensional cabang yang baru menjadi tugas yang mudah.

 

(-) merepresentasikan projek yang sangat besar dengan cakupan yang luas, sehingga membutuhkan biaya yang besar untuk mengimplementasikan data warehouse dengan metode top-down.

 

(-) durasi waktu dari dimulainya projek sampai pengguna dapat merasakan manfaat warehouse cukup terasa

 

(-) metode top-down dapat menjadi tidak fleksible terhadap perubahan kebutuhan di tahap implementasi

 

3. Perancangan hibrid

 

Seiring berjalannya waktu ternyata metode bottom-up dan top-down pada perancangan data warehouse memiliki keuntungan dan kerugian / resiko. Maka metode hybrid mencoba untuk mengambil keunggulan kecepatan dari metode bottom-up dan kekonsistenan data enterprise dari metode top-down.

 

 

 

 

data warehouse architecture

 

post #3 (2 Juli 2009)

 

Sifat-sifat dari data warehouse

 

– Berorientasi pada suatu persoalan (subject oriented)

 

Data warehouse dirancang untuk membantu kita dalam menganalisis data. Misalnya, kita ingin mempelajari mengenai data penjualan suatu perusahaan. Untuk melakukan ini, kita dapat membangun data warehouse yang terkonsentrasi pada penjualan. Dengan data warehouse ini, kita dapat menjawab pertanyaan seperti : “siapakah pembeli terbaik dari perusahaan ini tahun lalu?”

 

– Terintegrasi (integrated)

 

Data warehouse membutuhkan data dari beberapa sumber terpisah untuk disimpan ke suatu format khusus. Hal ini berarti konflik pemberian nama atau masalah dalam penggunaan unit pengukuran yang berbeda seperti “inch” dan “cm” harus diselesaikan.

 

– Bersifat tetap (non volatile)

 

Hal ini berarti data tidak akan pernah berubah atau diubah sekali masuk ke data warehouse. Hal ini jelas mengingat tujuan dari data warehouse adalah untuk menganalisis apa yang terjadi.

 

– Bervariasi terhadap waktu (time variant)

 

Kebanyakan analisis bisnis membutuhkan tren analisis. Karenanya analis membutuhkan data yang besar jumlahnya dengan melihat perubahan tren yang terjadi terhadap waktu. Hal ini menjadi kontras dibandingkan dengan sistem OLTP (Online Transaction Processing Systems).

 

Data warehouse dibandingkan dengan OLTP System

 

 

 

 

 

 

            Data Warehouse           Online Transaction Processing Systems

Workload         Didesain untuk menangani query dalam jumlah besar      Hanya mendukung operasi tertentu yang telah ditentukan

sebelumnya

Data modification          Data warehouse diperbaharui dalam jadwal  tertentu melalui proses ETL menggunakan teknik modifikasi data bulk (dalam jumlah besar).  Pengguna tidak mengupdate data warehouse secara langsung kecuali  menggunakan peralatan seperti data mining.       User melakukan proses update data secara langsung dan database selalu dalam kondisi terupdate (paling

baru)

Schema design  Umumnya tidak dinormalisasi atau sebagian ternormalisasi (seperti

star schema) untuk mengoptimasi query dan performansi analitis Menggunakan skema yang telah inormalisasi untuk mengoptimasi proses insert/update/delete dan juga memastikan integritas

data

Typical Operation         Menjalankan query yang memproses banyak record sekaligus,

contohnya : total penjualan semua customer pada akhir

bulan    Tidak semua record, misalnya mencari data order untuk pelanggan tertentu

Historical data  Menyimpan data selama jangka bulan bahkan tahun. Hal ini

bertujuan untuk mendukung analisis historical dan juga

laporan Hanya menyimpan data minggu-minggu atau bulan terakhir. Hanya menyimpan data yang dibutuhkan untuk transaksi saat

ini.

 

 

 

 

 

 

Sistem operasional dibandingkan dengan data warehouse

 

Sistem operasional optimal dalam menjamin integritas data dan kecepatan untuk menyimpan transaksi bisnis yang terjadi melalui normalisasi database dan model entity-relationship. Pada umumnya, perancang sistem operasinal mengikuti aturan normalisasi Codd. Database relational efisien untuk mengelola relasi antara tabel dan database akan memiliki performansi tinggi untuk proses insert maupun update karena hanya sejumlah kecil data dalam tabel yang dipengaruhi.

 

Sementara data warehouse optimal dalam kecepatan untuk menerima data. Secara berkesinambungan, data dalam data warehouse didenormalisasi dengan model berbasis dimensional. Selain itu, untuk mempercepat penerimaan data, data warehouse juga sering disimpan berkali-kali di bentuk lengkapnya dan juga di bentuk ringkasnya yang disebut aggregasi. Data dari data warehouse dikumpulkan dari sistem operasional dan tetap disimpan di data warehouse sekalipun data tersebut telah dibuang dari sistem operasional

 

Evolusi dalam perusahaan yang menggunakan data warehouse

 

Pada umumnya organisasi atau katakanlah suatu perusahaan memulai dengan data warehouse yang relatif simple. Seiring berlalunya waktu, kebutuhan akan data warehouse yang lebih canggi semakin meningkat. Pada umumnya tingkat-tingkat kebutuhan akan data warehouse dapat dibedakan sebagai berikut :

 

– Database operasional offline

 

Pada tahap ni secara sederhana data warehouse dibangun dengan menduplikasi data dari sistem operasional ke server lain sehingga saat dibutuhkannya proses terhadap data-data tersebut misalnya saja pembuatan laporan tidak akan mengimbas pada performansi sistem operasional.

 

– Data warehouse offline

 

Pada tahap ini data warehouse diperbaharui dari data di sistem operasional ke suatu bentuk umum dan data dari data warehouse disimpan dengan struktur data yang dirancang untuk memfasilitasi proses pembuatan laporan.

 

– Data warehouse realtime

 

Pada tahap ini, data warehouse diperbaharui setiap sistem operasional melalukan transaksi bisnis

 

– Data warehouse terintegrasi

 

Sama seperti pada data warehouse realtime, namun setiap kali terjadi proses update ke data warehouse, maka data warehouse akan menghasilkan sebuah transaksi yang dikembalikan ke sistem operasional.

Post  #4 (24 Juli 2009)

 

Komponen dari sebuah data warehouse

 

Kapan dan bagaimana mendapatkan data

 

Dalam source-driven architecture, maka sumber data mengirimkan informasi baru, baik secara kontinu maupun periodik (misalnya setiap malam)

 

Dalam destination-driven architecture, maka data warehouse secara periodik mengirimkan permintaan akan data yang baru ke sumber data

 

Skema yang digunakan

 

Sumber data yang dibuat masing-masing kemungkinan memiliki skema yang berbeda. Bahkan, mereka mungkin juga menggunakan data model yang berberda. Tugas dari data warehouse adalah untuk melakukan pengintegrasian skema dan mengubah data yang diterima menjadi skema terintegrasi sebelum disimpan. Sebagai hasilnya, data yang disimpan di data warehouse tidak hanya sekedar salinan dari sumber data. Melainkan telah diintegrasikan dengan data-data dari sumber lain.

 

Pembersihan data (data cleansing)

 

Tugas untuk memperbaiki dan mempersiapkan data disebut data cleansing. Sumber data sering mengirimkan data dengan banyak ketidakkonsistenan minor yang dapat diperbaiki. Misalnya, nama sering kali salah eja dan alamat berupa jalan/area/kota juga salah eja, atau kode pos salah. Hal ini dapat diperbaiki dengan merelasikannya dengan basis data dari nama jalan dan kode pos dari setiap kota. Daftar alamat yang digabungkan dari beberapa sumber mungkin terduplikasi sehingga perlu dieliminasi dengan operasi merge-purge (operasi natural-join).

 

Bagaimana menyebarkan update?

 

Update dalam sebuah relasi dari sumber data harus disebarkan juga ke data warehouse. Jika relasi pada data warehouse benar-benar serupa dengan yang di sumber data maka penyebarannya mudah. Namun jika tidak, maka permasalahan untuk memastikan update ini disebut masalah view-maintenance.

 

Data apa yang dapat digabungkan(aggregasi)

 

Data mentah yang dihasilkan dari proses transaksi  mungkin terlalu besar untuk disimpan secara online. Namun kita dapat menjawab banyak query dengan mengelola hanya ringkasa data yang didapatkan dengan melakukan agregasi pada suatu relasi daripada mengelola seluruh relasi Sebagai contoh : daripada menyimpan data penjualan pakaian setiap hari, kita dapat menyimpan total penjualan suatu pakaian berdasarkan nama dan kategori.

 

 

 

Skema

 

Data warehouse memiliki skema yang dirancang untuk analisis data dan pada umumnya menggunakan  perangkat OLAP(Online Analitical Processing). Data umumnya berupa data multidimensi (terdiri dari atribut dimensi dan pengukur) dan tabel yang menyimpan data ini disebut tabel fakta (fact table) dan biasanya sangat besar. Tabel yang menyimpan data penjualan suatu perusahaan ritel, dengan satu tuple untuk setiap barang yang terjual merupakan contoh dari tabel fakta. Atribut dimensi dari tabel penjualan akan mencakup barang apa itu (misalnya dengan barcode), tanggal dijualnya, lokasi toko dijualnya, pelanggan mana yang membelinya, dst. Atribut pengukur misalnya jumlah dan harga barang. Untuk meminimalkan kebutuhan penyimpanan, atribut dimensi seringkali disingkat dengan foreign key ke tabel lain yang disebut tabel dimensi (dimension tables).

 

Sebagai contoh,sebuah tabel fakta penjualan akan memiliki atribut item-id, store-id, customer-id, dan tanggal, serta atribut pengukur jumlah dan harga. Atribut store-id adalah foreign key ke sebuah tabel dimensi store yang memiliki atribut lain seperti lokasi toko (kota, wilayah, negara). Atribut item-id juga merupakan foreign key ke tabel dimensi item-info yang memiliki atribut seperti warna dan ukuran. Untuk lebih jelasnya dapat diamati dari bagan berikut :

 

 

 Post #5

7 Agustus 2009

 

Keuntungan menggunakan data warehouse

Data warehouse menyediakan model data yang umum untuk semua data tidak tergantung sumber datanya. Hal ini mempermudah pembuatan laporan dan analisis informasi dibandingkan jika diperlukan banyak model data untuk menerima informasi seperti faktur penjualan, kuitansi pemesanan, tagihan-tagihan lainnya.

Saat meload data ke dalam datawarehouse, ketidakkonsistenan akan teridentifikasi dan diperbaiki. Hal ini akan mendukung juga dalam proses pembuatan laporan dan analisis.

Informasi yang disimpan dalam data warehouse dibawah kontrol dari pengguna data warehouse, sehingga sekalipun sumber data dibersihkan pada suatu waktu, informasi itu akan tetap tersimpan dengan aman di data warehouse.

Karena data warehouse terpisah dari sistem operasional, maka data warehouse dapat menerima data tanpa memperlambat kerja kerja sistem operasional

 Data warehouse menyediakan fasilitas yang mendukung pengambilan keputusan seperti laporan berdasarkan tren (misalnya : barang yang paling banyak terjual di suatu area dalam 2 tahun terakhir), laporan perkecualian, dan laporan yang menampilkan pencapaian di lapangan yang sesungguhnya dibandingan dengan gol yang telah ditetapkan.

 

Kerugian menggunakan data warehouse

Data warehouse bukan merupakan lingkungan yang optimal untuk data yang tidak terstruktur

Data perlu untuk diekstrak, diubah, dan diload ke data warehouse, sehinggan terdapat delay (tenggat waktu) di mana data yang dimasukkan ke dalam data warehouse belum terdeteksi.

Semakin lama masa hidupnya, maka data warehouse dapat menyebabkan biaya yang besar. Data warehouse umumnya tidak statis. Biaya perawatannya cukup tinggi.

Data warehouse dapat menjadi ketinggalan dari data terbaru relatif cepat. Maka, akan ada resiko bahwa data yang akan dianalisis di data warehouse merupakan data yang tidak optimal.

 

Contoh aplikasi dari Data Warehouse

Analisis kartu kredit

Analisis kecurangan asuransi

Analisis panggilan telepon

Managemen logistik

 

Akhirnya, kelima post untuk eksplorasi mengenai data warehouse telah dirilis. Semoga dapat bermanfaat. Secara singkat ,dapat disimpulkan bahwa data warehouse akan dibutuhkan oleh perusahaan-perusahaan besar dengan banyak cabang yang membutuhkan kemampuan pembuatan laporan dan analisis data. Maka daripada itu dibutuhkan gudang data yang tidak hanya sekedar menyimpan data namun juga memiliki kemampuan untuk mengolah, menganalisis, bahkan memperbaiki ketidakkonsistenan data yang terjadi. Data warehouse sendiri sendiri memiliki kelebihan dan kerugian, maka perlu dipertimbangkan dengan baik apakah memang dibutuhkan untuk menggunakan data warehouse atau tidak.

 

 

Pengenalan Data Warehouse

Posted by: admin in Data Warehousing and Data Mining

 

Data warehouse merupakan sebuah basis data yang menyimpan informasi dari basis data lain dengan menggunakan format umum. Data warehouse tidak memiliki definisi yang pasti. Aturan - aturan pembangunan suatu data warehouse juga belum terdefinisikan dengan pasti. Akibat dari hal ini adalah terdapat beberapa cara untuk membuat data warehouse - data warehouse dan suatu data warehouse mungkin terlihat dan bertingkah laku sangat berbeda dibandingkan dengan data warehouse yang lain.

 

Pada umumnya, query - query terhadap sebuah data warehouse di-resolve dalam waktu yang sangat singkat. Hal ini dikarenakan data warehouse telah mengerjakan hal - hal penting, yaitu extracting, converting, dan combining data. Sisi pengguna dari sebuah data warehouse disebut dengan front end. Jadi, dari sudut pandang front end data warehousing merupakan cara efisien untuk mendapatkan data yang terintegrasi.

 

Dari perspektif back end, cerita mengenai data warehousing adalah jauh berbeda. Penanggung jawab basis data harus benar - benar berpikir untuk membuat sistem data warehouse menjadi efektif dan efisien. Pengubahan data yang diperoleh dari berbagai sumber menjadi format umum dapat berupa proses yang rumit dan suit. Sistem membutuhkan pendekatan konsisten untuk mendeskripsikan dan meng-encoding data.

 

Suatu warehouse harus memiliki basis data yang cukup besar untuk menyimpan data yang diperoleh dari berbagai sumber. Beberapa data warehouse terdiri atas langkah tambahan yang disebut dengan data mart. Data warehouse memiliki kewajiban mengagregasikan data, sedangkan data mart bertanggung jawab untuk merespon query - query dari pengguna dengan mengambil dan mengkombinasikan data yang tepat dari warehouse.

 

Suatu masalah yang timbul dalam data warehouse adalah bahwa informasi di dalam data warehouse tidaklah selalu merupakan informasi yang terbaru. Hal ini disebabkan oleh cara kerja data warehouse itu sendiri. Data warehouse mengambil informasi dari basis data lain secara periodik. Jika data di dalam basis data - basis data tersebut berubah selama data wareohuse melakukan ekstraksi, query terhadap data warehouse yang bersangkutan tidak akan menghasilkan data yang terbaru dan terakurat. Jika data dalam sebuah sistem jarang berubah, permasalahan yang sebelumnya telah dipaparkan tersebut tidak akan menjadi masalah besar.

 

Analogi yang cocok untuk menunjukkan kelemahan data warehousing adalah analogi lalu lintas dan peta. Peta suatu daerah tidaklah memerlukan update yang sering, tetapi kondisi lalu lintas dapat berubah drastis dalam waktu yang relatif singkat. Sebuah data warehouse mungkin tidak mengekstraksi data secara sering. Hal in berarti informasi - informasi yang sensitif terhadap waktu mungkin menjadi tidak reliable. Untuk permasalahan seperti ini, sebaiknya digunakan pendekatan integrasi data yang lain.

 

Data Mining & Data Warehouse

Data Mining & Data Warehouse

PENDAHULUAN

Salah satu efek yang dihasilkan dari adanya suatu sistem informasi adalah munculnya banyak data. Data yang ada ini berasal dari sistem operasional yang berfungsi untuk menangani transaksi yang terkait dengan proses bisnis yang ditangani oleh sistem informasi tersebut. Contoh: sistem informasi presensi karyawan memunculkan data jumlah kehadiran kehadiran karyawan setiap hari dengan data yang disimpan tergantung pada apa yang dibutuhkan oleh sistem informasi tersebut (misalkan: nomor induk pegawai, jam masuk, pintu masuk, dsb.). Bayangkanlah sistem informasi ini dipakai di perusahaan yang jumlah karyawannya sebanyak 1000 orang. Apabila data ini dipakai selama seminggu masa kerja saja (5 hari), maka data yang masuk dalam basis data ada 1000 x 5 = 5000 baris. Anda tinggal kalikan saja apabila ingin menghitung jumlah data yang disimpan selama seminggu waktu operasional, sebulan, hingga setahun. Itu baru satu sistem informasi saja. Di korporasi yang besar sistem informasi yang ada berjumlah banyak dengan berbagai fungsi dan tujuannya. Akhirnya masalah berikutnya muncul.

Data warehouse adalah data-data yang beorientasi subjek, terintegrasi, memiliki dimensi waktu, serta merupakan koleksi tetap (non-volatile), yang digunakan dalam mendukung proses pengambilan keputusan. Sedangkan data mining muncul setelah banyak dari pemilik data baik perorangan maupun organisasi mengalami penumpukan data yang telah terkumpul selama beberapa tahun, misalnya data pembelian, data penjualan, data nasabah, data transaksi, email dan sebagainya. Kemudian muncul pertanyaan dari pemilik data tersebut, apa yang harus dilakukan terhadap tumpukan data tersebut.

Data mining merupakan prinsip dasar dalam mengurutkan data dalam jumlah yang sangat banyak dan mengambil informasi – informasi yang berkaitan dengan apa yang diperlukan seperti apa yang biasa dilakukan oleh seorang analis. Dengan bertambah banyaknya jumlah data yang ada dalam model bisnis yang kita lakukan dalam perusahaan ini, maka peran analis untuk menganalisa data secara manual perlu digantikan dengan aplikasi yang berbasis komputer yang dapat menganalisa data secara otomatis menggunakan alat yang lebih kompleks dan canggih.

Data warehouse adalah database yang berisi data dari beberapa system operasional yang terintegrasi dan terstruktur sehingga dapat digunakan untuk mendukung analisa dan proses pengambilan keputusan dalam bisnis.

Data warehouse didesain untuk kita bisa melakukan query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up untuk dijadikan ringkasan, dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, atau melihat pola yang menarik atau melihat trend (kecenderungan).

Ada empat tugas yang bisa dilakukan dengan adanya data warehouse
1. Pembuatan laporan

Pembuatan laporan merupakan salah satu kegunaan data warehouse yang paling umum dilakukan. Dengan menggunakan query sederhana didapatkan laporan perhari, perbulan, pertahun atau jangka waktu kapanpun yang diinginkan.
2. On-Line Analytical Processing (OLAP)

OLAP mendayagunakan konsep data multi dimensi dan memungkinkan para pemakai menganalisa data sampai mendetail, tanpa mengetikkan satupun perintah SQL. Hal ini dimungkinkan karena pada konsep multi dimensi, maka data yang berupa fakta yang sama bisa dilihat dengan menggunakan fungsi yang berbeda. Fasilitas lain yang ada pada sofware OLAP adalah fasilitas rool-up dan drill-down. Drill-down adalah kemampuan untuk melihat detail dari suatu informasi dan roll-up adalah kebalikannya.
3. Data mining

Data mining merupakan proses untuk menggali pengetahuan dan informasi baru dari data yang berjumlah banyak pada data warehouse, dengan menggunakan kecerdasan buatan (Artificial Intelegence), statistik dan matematika. Data mining merupakan teknologi yang diharapkan dapat menjembatani komunikasi antara data dan pemakainya.

Beberapa solusi yang diberikan data mining antara lain :
Menebak target pasar

Data mining dapat mengelompokkan (clustering) model-model pembeli dan melakukan klasifikasi terhadap setiap pembeli dan melakukan klasifikasi terhadap setiap pemebeli sesuai dengan karakteristik yang diinginkan.
Melihat pola beli dari waktu ke waktu

Data mining dapat digunakan untuk melihat pola beli dari waktu ke waktu.
cross-market analysis

Data mining dapat dimanfaatkan untuk melihat hubungan antara satu produk dengan produk lainnya.
Profil pelanggan

Data mining bisa membantu pengguna untuk melihat profil pembeli sehingga dapat diketahui kelompok pembeli tertentu cenderung kepada suatu produk apa saja.
Informasi summary

Data mining dapat membuat laporan summary yang bersifat multi dimensi dan dilengkapi dengan informasi statistik lainnya.
4. Proses informasi executive

Data warehouse dapat membuat ringkasan informasi yang penting dengan tujuan membuat keputusan bisnis, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan data warehouse segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan. Informasi dan data pada laporan data warehouse menjadi target informative bagi user.

Karakteristik Data Warehouse
1. Subject Oriented (Berorientasi subject)

Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan(customers,products dan sales) dan tidak diorganisasikan pada area-area aplikasi utama(customer invoicing,stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data.

Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Secara garis besar perbedaan antara data operasional dan data warehouse yaitu :Data Operasional Data Warehouse
Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu Dirancang berdasar pada subjek-subjek tertentu(utama)
Focusnya pada desain database dan proses Focusnya pada pemodelan data dan desain data
Berisi rincian atau detail data Berisi data-data history yang akan dipakai dalam proses analisis
Relasi antar table berdasar aturan terkini(selalu mengikuti rule(aturan) terbaru) Banyak aturan bisnis dapat tersaji antara tabel-tabel

2. Integrated (Terintegrasi)

Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri.

Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data.

Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.
3. Time-variant (Rentang Waktu)

Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :
Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.
4. Non-Volatile

Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya.

Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).

Peranan Penting OLTP VS OLAP dalam Data Warehouse
OLTP (Online Transactional Processing / OLTP)

Sistem informasi adalah sekumpulan fungsi yang bekerja secara bersama-sama dalam mengelola, mengumpulkan, menyimpan, memproses serta mendistribusikan informasi. Dalam dunia kerja mengolah sistem informasi harus dibuat semudah mungkin, sehingga user dapat menggunakan hasil dari sistem informasi secara mudah. Untuk itu, sistem informasi haruslah efisien, transparan dan terintegarsi. Untuk megolah suatu sistem informasi dibutuhkan salah satu komponen yaitu sistem informasi manajemen yang berbasis komputer yang dinamakan sistem basis data (database).

Sistem basis data mempunyai peran penting sebagai tempat pusat penyimpanan data yang mendukung kegiatan operasional (Online Transactional Processing / OLTP).

Ciri-ciri umum sistem OLTP adalah :
Mendukung jumlah pengguna yang banyak yang sering menambah dan merubah data transaksi
Mengandung data dalam jumlah besar, termasuk di dalamnya validasi data transaksi
Memiliki struktur yang kompleks dan rumit
Diarahkan secara maksimal untuk melayani aktivitas transaksi harian
Menyediakan teknologi infrastruktur yang mendukung operasional transaksi data dalam perusahaan

Sebuah sistem OLTP yang umum memiliki karakteristik seperti jumlah user yang sangat banyak yang secara serentak mengolah dan menambah data. Dalam hal ini, apabila banyak user yang melakukan pengolahan dan penambahan data akan membebani program, saat database berkembang semakin banyak dan kompleks, waktu respon akan semakin berkurang disebabkan bertumpuknya pemakaian sumber daya yang tersedia, sehingga untuk membuat suatu keputusan sangatlah susah dan membutuhkan waktu yang lama dan untuk membuat query satu persatu pada sumber data tidak praktis dan efisien, apalagi sumber data yang ada menyimpan current (arus data), sedangkan data yang dibutuhkan oleh para pembuat keputusan adalah data-data historis. Sebagai contoh data histori dibutuhkan pada pembuatan informasi mengenai transaksi setoran/tarikan dengan nominal tertentu per bulan per cabang, besaran rata-rata transaki per cabang per bulan, transaksi yang di-reverse, dan lain-lain. Dengan adanya masalah diatas maka data warehouse mempunyai solusi dalam mengolah data historis dari berbagai sumber data tersebut.

Data warehouse menyediakan sebuah interface gabungan terhadap data, sehingga query-query pendukung keputusan mudah ditulis. Data warehouse juga dapat menyimpan sumber data yang heterogen (data yang tersebar pada database Online Transactional Processing) dipindahkan ke data yang homogen, sehinggga dengan kemampuan akses data warehouse maka upaya untuk pendukung keputusan dapat diakses dengan cepat, efisien dan akurat. Hal penting untuk menjaga Data Warehouse adalah dengan selalu memantau kekinian data yang tersimpan, dengan membuat katalog data dan disimpan secara terpisah dalam suatu sistem repositori meta data yang menyimpan informasi sumber data terkini.
OLAP (OnLine Analytical Processing)

OLAP (OnLine Analytical Processing) adalah jenis perangkat lunak yang digunakan untuk melakukan permintaan terhadap data dalam bentuk yang kompleks dan bersifat sementara serta sewaktu-waktu. OLAP memanipulasi dan menganalisis data bervolume besar dari berbagai perspektif (multidimensi). Oleh karena itu OLAP seringkali disebut analisis data multidimensi.

OLAP bekerja dengan data dalam bentuk multidimensi. Yang umum, bentuk tiga dimensi diwujudkan ke dalam bentuk kubus data.

Tujuan OLAP adalah menggunakan informasi dalam sebuah basis data (data warehouse) untuk memandu keputusan-keputusan yang strategic. Beberapa contoh permintaan yang ditangani oleh OLAP:

• Berapa jumlah penjualan dalam kuartal pertama?

• Berapa jumlah penjualan per kuartal untuk masing-masing kota?

• Tampilkan 5 produk dengan total penjualan tertinggi pada kuartal pertama.

Kadangkala permintaan yang ditangani OLAP bisa diselesaikan dengan pernyataan SQL sederhana, tetapi dalam banyak kasus tidak dapat diekspresikan dengan SQL. OLAP dapat digunakan untuk melakukan konsolidasi, drill-down, dan slicing and dicing. Di bawah ini adalah kegunaan dari konsolidasi, drill-down, dan slicing and dicing yaitu:
Konsolidasi

melibatkan pengelompokan data. Sebagai contoh kantor-kantor cabang dapat dikelompokkan menurut kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi.
Drill-down

Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail. Sebagai contoh, mula-mula data yang tersaji didasarkan pada kuartal pertama. Jika dikehendaki, data masing-masing bulan pada kuartal pertama tersebut bisa diperoleh, sehingga akan tersaji data bulan Januari, Februari, Maret, dan April.
Slicing and dicing (atau dikenal dengan istilah pivoting)

Untuk menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang. Data dapat diiris-iris atau dipotong-potong berdasarkan kebutuhan. Sebagai contoh, dapat diperoleh data penjualan berdasarkan semua lokasi atau hanya pada lokasi-lokasi tertentu.

Adapun karakterisik aplikasi-aplikasi OLAP:
permintaan data sangat kompleks,
jarang ada pemutakhiran, dan
transaksi mengakses banyak bagian dalam basis data.

Contoh perangkat lunak OLAP:
Express Server (Oracle)
PowerPlay (Cognos Software)
Metacube (Informix/Stanford Technology Group)
HighGate Project (Sybase

Sistem OLAP pada masa awal menggunakan larik multidimensi di dalam memori untuk menyimpan data kubus. Sistem seperti ini disebut MOLAP (Multidimensional OLAP). Pada perkembangan selanjutnya, data disimpan dalam bentuk basis data relasional. Sistem OLAP seperti ini dikenal dengan sebutan ROLAP (Relational OLAP), selain MOLAP dan ROLAP, terdapat pula sistem yang dinamakan 1iybrid OLAP (HOLAP), yaitu sistem OLAP yang menyimpan beberapa ringkasan dalam memori dan menyimpan basis data dan ringkasan-ringkasan yang lain dalam basis data relasional.

Contoh skema star, tabel penjualan sebagai konektor tabel produk, lokasi dan waktu:

Keuntungan Data Warehouse

Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber-sumber data yang heterogen(yang biasanya tersebar pada beberapa database (OLTP) dimigrasikan untuk penyimpanan data yang homogen dan terpisah. Keuntungan dengan menggunakan data warehouse adalah :
Data diorganisir dengan baik untuk query analisis dan sebagai bahan untuk pemrosesan transaksi.
Perbedaan diantara struktur data yang heterogen pada beberapa sumber yang terpisah dapat diatasi.
Aturan untuk transformasi data diterapkan untuk memvalidasi dan mengkonsolidasi data apabila data dipindahkan dari database OLTP ke data warehouse.
Masalah keamanan dan kinerja bisa dipecahkan tanpa perlu mengubah sistem produksi.

MOTIVASI DATA WAREHOUSE
Tekanan terhadap database OLTP untuk proses query terlalu besar
Data warehousing didisain untuk proses pengambilan yang efesien
Data pada sistem yang berbeda-beda umumnya tidak konsisten, kualitasnya buruk dan disimpan di dalam format yang berbeda
Mengurangi biaya dalam menyediakan data untuk keperluan pengambilan keputusan
Mendukung untuk memfokuskan diri pada proses bisnis lengkap
Mendukung inisiatif baru
Sumber-sumber industri menyebutkan bahwa ROI berjumlah rata-rata 401% dalam tiga tahun
Tetap kompetitif

Proses Data Warehouse

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat.

Karenanya data warehouse seharusnya dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.


Metodologi Data Warehouse
1. Metode NCR (Non Conform report)
3NF dan model perusahaan (penekanan pada normalisasi dan DBMS standar)
Penekanan pada arsitektur
Digunakan dalam beberapa sistem yang sangat besar


2. Metode SAS

— Datawarehouse cepat

— Keterkaitan selama 3 bulan

– Prototyping 2 bulan + 1 bulan untuk pengembangan solid

– Kembali lagi

— Banyak menggunakan prototyping

— Bergantung pada kemampuan analis sistem yang bagus

3. Metode Microsoft

— Memberikan perhatian pada pengguna secara eksplisit

— Terkait dengan beberapa tool yang spesifik yang mengintegrasikan RDBMS dan OLAP (misalnya SQL server dan Layanan Analisa/Pelaporan)


4. Pendekatan Inmor
Kelebihan

– Integrasi

– Perulangan
Arsitektur pengembangan berimbang yang terkonsentrasi
Kelemahan

– Kesulitan dan biaya mendisain model data perusahaan

– Pengertian model ER (dalam 3NF)

– Feedback dari penggunaan?
5. Metode Ives

Kelebihan :

— Teknik untuk perumusan keperluan

— Integrasi

— Teknik representasi berganda

Kelemahan :

— Kekompleksan dan potensi berbiaya tinggi

— Waktu penyelesaian

— Kemampuan beradaptasi (bagaimana bila strategi bisnis berubah?, Feedback pengguna?)




6. Metode Kimball

Kelebihan :

— Pemodelan berdimensi

— Mudah dimengerti

Kelemahan :

— Integrasi

— Mapping dari pemodelan berdimensi ke sistem yang sudah ada

7. Metode McFadden

Kelebihan :

— Partisipasi pengguna

— Fokus pada pencarian sumber data

Kelemahan :

— Membagi data warehouse yang besar

— Tidak ada guidelines untuk desain secara fisik


Perbandingan 4 metode



Strategi Pencaharian Sumber Data Warehouse

Sebelum mengembangkan suatu data warehouse, sangat penting untuk mengembangkan strategi balanced data warehouse yang sesuai dengan kebutuhan dan populasi user. Siapakah audiencenya? Apa ruang lingkupnya? Tipe data warehouse seperti apa yang harus dipilih? Terdapat beberapa strategi yang dapat digunakan oleh suatu organisasi untuk dapat membuat suatu data warehouse. Salah satunya adalah dengan menetapkan lingkungan “Virtual Data Warehouse”. Virtual Data Warehouse dibuat dengan cara:
menginstal kumpulan akses data, direktori data dan fasilitas manajemen proses,
training user
memonitor bagaimana data warehouse digunakan dan kemudian
berdasarkan pemakaian actual, membuat suatu physical data warehouse untuk mendukung permintaan yang banyak.

Strategi yang kedua adalah dengan membangun copy dari data operasional dari satu system operasional dan memungkinkan data warehouse dari sekumpulan tool untuk mengakses informasi. Strategi ini mempunyai keuntungan yaitu sederhana dan cepat. Sayangnya, jika data yang ada berkualitas jelek dan akses ke data tersebut kurang baik, maka pendekatan ini akan menimbulkan masalah yang signifikan.

Pada akhirnya, Strategi data warehouse yang optimal adalah memilih populasi user berdasarkan nilai dari perusahaan dan melakukan analisa persoalan, pertanyaan dan kebutuhan akses data mereka. Berdasarkan kebutuhan ini, prototype data warehouse dibangun dan dipopulasikan sehingga user dapat bereksperimen dan memodifikasi requirement mereka. Sekali terbentuk persetujuan tentang kebutuhan mereka, kemudian data dapat diambil dari database operasional yang ada dalam perusahaan ataupun dari data source yang lain dan diload kedalam data warehouse. Jika diperlukan, tool untuk mengakses informasi dapat memungkinkan user untuk mendapatkan akses untuk mengambil data menggunakan tool favorit mereka atapun untuk memperkenankan pembuatan dari informasi multi-dimensi yang berperforma tinggi menggunakan datawarehouse sebagai dasarnya.

Sebagai analisa akhir, tidak ada pendekatan untuk membangun suatu data warehouse yang dapat sesuai dengan kebutuhan setiap perusahaan. Kebutuhan setiap perusahaan berbeda satu sama lain sebagaimana konteks dari perusahaan tersebut. Sebagai tambahan, sejak teknologi data warehouse berkembang seprti yang sudah kita pelajari, hanya pendekatan praktislah yang berkembang sebenarnya.
A. Strategi Pencarian Sumber (Masalah)
B. Strategi Pencarian Sumber (Mengembangkan Pertanyaan)
Bagaimana proses evolusi direncanakan?
Bagaimana keuntungan dan ROI ditentukan?
Bagaimana masalah kepemilikan data dan tanggung jawab dipecahkan?
Bagaimana budaya organisasi terkait dengan data warehousing?
Skil dan sumber daya apa yang diperlukan?
Apa standar yang sesuai untuk diterapkan?
C. System Penyampaian Pengembangan dan Penggunaan
Perlu untuk menyediakan user interface yang mudah digunakan dan berkualitas
Memonitor penggunaan
Pentingnya Menemukan sponsor bisnis
Alokasi Menyediakan waktu untuk mengembangkan kasus Bisnis, Contoh: Pemborosan waktu dalam memperoleh dukungan sponsor bisnis kurang baik
Mengatur harapan (berorientasi positif)
Harus mempunyai tujuan yang jelas dan dipahami
Data warehousing adalah kegiatan berskala besar, perlu pendalaman dalam mendapatkannya
Bersiap dengan ketidak setujuan dari beberapa kelompok di dalam organisasi
Memiliki suatu kasus kuat mengembangkan sebuah data warehouse sebagai data infrastructure untuk EIS dan DSS
Menyeimbangkan antara tujuan jangka pendek dan tujuan jangka panjang
Style pengambilan keputusan dan keefektifan
Respon yang berkelanjutan
Kualitas data warehouse yang digunakan harus tinggi
Visualisasi data dapat membantu pengertian
Kemampuan OLAP sangat penting dalam melakukan pengambilan data yang fleksibel dan pemanipulasian data
Kemampuan Data Mining dapat membantu menemukan pola baru di dalam data
D. System Penyampaian Pertanyaan
Bagaimana keefektifan data warehouse ditentukan dan diukur?
Bagaimana tehnik data mining yang rumit dapat digunakan secara efektif oleh para manajer bisnis?

Arsitektur Dan Model Data Mining

Salah satu kunci data warehouse adalah fleksibilitas. Sangat penting untuk diingat adalah semakin sukses strategi suatu data warehouse strategy maka semakain banyak user yang ingin ditambahkan kedalamnya.


Keterangan :

1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise)

2. Data integration : penggabungan data dari beberapa sumber

3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining

4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base

5. Graphical User Interface (GUI) : untuk end user

Model Data Mining
Prediction methods

Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang.
Description Methods

Mendapatkan pola penafsiran (human-interpretable patterns) untuk menjelaskan data.


Tools Data Mining
Karateristik-karateristik penting dari tool data mining meliputi :

– Data preparation facilities

– Selection of data mining operation (algorithms)

– Product scalability and performance

– Facilities for visualization of result
Data mining tool, meliputi :

– Integral Solution Ltd’s Clementine

– DataMind Corp’s Data Crusher

– IBM’s Intelligent Miner

– Silicon Graphics Inc.’s MineSet

– Informations Discovery Inc.’s Data Mining Suite

– SAS Institute Inc.’s SAS System and Right Information System’Thought.

Tools Data Warehouse

a) Software
Back end:

– Data sourcing: ETL

– Data quality

– Data storage: pemandu agregat

– Meta-data manajemen
Front end:

– OLAP

– ROLAP

– Spreadsheet

– Pembuat laporan

– Tools Data Mining

– Analisa Statistik

b) Hardware
Desktop dan Peralatannya, menggunakan Akses card swipe
Teknologi network seperti Cabling, modems, NIC, routers dll
Servers seperti Server database, server ETL, server administrasi, tool metadata dll
Backup, yang perlu diperhatikan bahwa Recovery sangat menyulitkan dan lokasi mendapatkan Source Systems

Kriteria yang Paling Diperhatikan Dalam Memilih Tools
Pengertian vendor terhadap data warehouse
Buat pilihan yang dimengerti mengenai teknologi yang dipilih
V endor bisa melakukan dan percaya diri
Pekerjakan mereka dengan baik

Data Preprocessing

Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan proses prosedur yang lainnya. Dalam data mining menstrasformasi data ke suatu format yang prosesnya lebih mudah dan efektif untuk kebutuhan pemakai, contohnya Neural Network. Terdapat beberapa alat dan metode yang berbeda yang digunakan untuk preprocessing seperti :

– Sampling : menyeleksi subset representatif dari populasi data yang besar.

– Transformation : memanipulasi data mentah untuk menghasilkan input tunggal.

– Denoising : menghilangkan noise dari data

– Normalization : mengorganisasi data untuk pengaksesan yang lebih spesifik

– Feature extration : membuka spesifikasi data yang signifikan dalam konteks tertentu.

Knowledge Discovery In Database (KDD)

KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data. Knowledge discovery in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti.





Tahapan Proses KDD
1. Data Selection

Menciptakan himpunan data target , pemilihan himpunan data, atau memfokuskan pada subset variabel atau sampel data, dimana penemuan (discovery) akan dilakukan. Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Preprocessing/cleaning

Pemprosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation

Pencarian fitur-fitur yang berguna untuk mempresentasikan data bergantung kepada goal yang ingin dicapai. Merupakan proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses ini merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
4. Data mining

Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Pemilihan algoritma data mining untuk pencarian (searching)
5. Interpretation/ Evaluation

Penerjemahan pola-pola yang dihasilkan dari data mining. Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya

PENUTUP

Data warehouse merupakan suatu cara/metode dari suatu database yang berorientasi kepada subjek, non-volatile, time-variance dan terintegrasi yang digunakan untuk mempermudah para pengambil keputusan dalam memecahkan masalah.

Keberadaan data warehouse sangat penting sebagai tools dari DSS, karena data warehouse memang digunakan untuk itu. Dengan adanya data warehouse, diharapkan suatu perusahaan dapat lebih unggul dari kompetitornya dan lebih jeli lagi dalam melihat peluang pasar.

Selasa, 27 Oktober 2009