Rumah Kewangan Peribadi Pengekstrakan, Pergerakan dan Pemuatan Data Gudang Data Deluxe - dummies

Pengekstrakan, Pergerakan dan Pemuatan Data Gudang Data Deluxe - dummies

Video: SCP-1730 What Happened to Site-13? Part 1 | euclid | building scp 2024

Video: SCP-1730 What Happened to Site-13? Part 1 | euclid | building scp 2024
Anonim

Pelaksanaan gudang data mewah besar - dan semakin besar sepanjang masa. Pelaksanaan yang menggunakan beratus-ratus gigabait (gigabyte sama dengan 1 bilion bait) dan bahkan terabytes (1 trilion bait) semakin umum. Untuk menguruskan jumlah data dan akses pengguna ini, anda memerlukan pelayan dan pangkalan data yang sangat mantap.

Sediakan cabaran! Dengan lite gudang data, anda biasanya boleh mengendalikan pergerakan sumber-ke-gudang data dengan cara yang mudah dan berteknologi rendah - tetapi dengan gudang data yang mewah, anda kini memasuki Zon Kesulitan, di mana banyak projek pergudangan data memenuhi mereka Waterloo.

Anda mungkin mengalami kesulitan dalam domain ini untuk beberapa sebab:

  • Anda berurusan dengan banyak sumber data yang berbeza, beberapa di antaranya mungkin mengandungi data bertindih. Sebagai contoh, maklumat pembekal mungkin berasal dari dua sistem pembelian yang berbeza, dan beberapa pembekal anda mempunyai entri dalam kedua-dua sistem.

    Anda mungkin akan beralih kepada set pengenal yang berbeza yang perlu anda kumpulkan (sebagai contoh, enam aksara alfanumerik yang dikenalpasti sebagai SUPPLIER_ID di salah satu sistem dan integer unik yang dikenali sebagai SUP_NUM di yang lain).

  • Jika gudang data anda besar (mengukur lebih daripada 250 gigabait), anda mungkin mengalami kesukaran dalam mengekstrak, memindahkan dan memuatkan tetingkap batch anda. Tetingkap tingkap , bingkai masa di mana kemas kini dibuat ke gudang, rumit oleh jumlah sumber data yang perlu anda hadapi.

  • Kemungkinan mempunyai proses pengekstrakan, pergerakan, transformasi, dan pemuatan yang rosak secara eksponen adalah berkaitan dengan bilangan elemen data yang akan dimasukkan ke dalam gudang data.

    Sekiranya anda boleh menetapkan beberapa faktor kesukaran (integer, misalnya) kepada proses mendapatkan data ke dalam gudang, langkah berikut akan berlaku: Anda mempunyai n data elemen yang anda mahu masukkan dalam gudang data dengan faktor kesukaran x. Jika anda kini mempunyai 2 n elemen data, faktor kesukaran anda tidak 2 x; sebaliknya, ia x kuasa dua.

    Untuk menjadikan faktor kesukaran ini lebih mudah difahami, berikan beberapa nombor kepada n dan x. Katakan gudang data anda mempunyai 100 unsur (n) dan faktor kesulitan (x) adalah 5. Jika anda menggandakan jumlah elemen ( n > = 200), faktor kesukaran anda adalah 25 (5 kuasa dua), bukan 10 (5 x 2). Proses berurusan dengan begitu banyak sumber data, semua menuju ke satu tempat (gudang data anda mewah), mempunyai semua elemen terlalu banyak koki di dapur, atau apa pun yang dikatakan.

  • Untuk membuat pengekstrakan, pergerakan, transformasi, dan proses pemuatan berjalan dengan lancar, anda mungkin perlu menangani banyak pemilik aplikasi berbeza, penjaga rasmi pangkalan data, dan orang lain dari pelbagai organisasi yang berbeza, yang semuanya perlu bekerjasama seperti mereka adalah sebahagian daripada orkestra simfoni profesional.

    Namun, kenyataannya adalah mereka melakukan lebih seperti sekumpulan pelajar tadika yang masing-masing memilih alat muzik dari tong sampah dan diberitahu, "Sekarang mainkan sesuatu! "Walaupun proses tersebut tidak semestinya gagal, mengharapkan beberapa lelaran sehingga anda dapat memperoleh gudang data mewah dimuat tepat.

    Gudang data deluxe boleh mempunyai tiga tiang (seperti lite gudang data), kecuali dengan lebih banyak sumber data dan mungkin lebih daripada satu jenis alat pengguna yang mengakses gudang. Tetapi seni bina untuk gudang data mewah mungkin kelihatan lebih seperti apa yang ditunjukkan dalam angka ini, dengan banyak koleksi mata yang berbeza untuk data.

Sebagai tambahan kepada stesen cara lain yang diperlukan untuk persekitaran khusus anda, persekitaran anda mungkin mempunyai unsur-unsur ini:

Data mart:

  • Terima subset maklumat dari gudang data yang mewah dan berfungsi sebagai titik akses utama untuk pengguna. Stesen transformasi interim:

  • Satu kawasan di mana set data yang diekstrak dari beberapa sumber mengalami beberapa jenis proses transformasi sebelum memindahkan saluran paip ke pangkalan data gudang. Stesen jaminan kualiti:

  • Satu kawasan di mana kumpulan data menjalani pemeriksaan jaminan kualiti intensif sebelum anda membiarkan mereka beralih ke gudang data.

Pengekstrakan, Pergerakan dan Pemuatan Data Gudang Data Deluxe - dummies

Pilihan Editor

Cara RSVP ke Acara di Ning - patung

Cara RSVP ke Acara di Ning - patung

Di Ning, setelah anda menemukan persidangan itu mencari atau parti yang ingin anda hadiri, anda perlu RSVP untuk acara tersebut supaya pihak penganjur boleh mendapatkan jumlah minuman, makanan dan barang yang sesuai untuk semua peserta - dan juga rakan-rakan rangkaian anda yang tahu anda akan pergi . Untuk RSVP ...

Cara Menghantar Mesej Peribadi di Ning - dummies

Cara Menghantar Mesej Peribadi di Ning - dummies

Mesej hanya dengan dua kumpulan orang: rakan anda dan Pentadbir (termasuk Pencipta Rangkaian). Mesej peribadi Ning memberi anda cara yang ideal sebagai ahli untuk berkomunikasi dengan ahli-ahli lain dalam rangkaian tanpa semua orang mengetahui tentangnya:

Pilihan Editor

Dimensi web untuk Infographics anda - dummies

Dimensi web untuk Infographics anda - dummies

Cabaran untuk menilai infographic untuk web adalah saiz reka bentuk kini sangat berubah , tiada standard untuk bercakap. "Reka bentuk responsif" yang dibawa dengan kemunculan HTML5 mengubah landskap reka bentuk web secara kekal. Tidak seperti grafik yang dicetak, di mana setiap orang yang melihatnya mengalaminya dalam saiz yang sama, ...

Pilihan Editor

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Bagaimana Menganalisis Sentimen dan Kesan Penglibatan Media Sosial Anda - pemahaman

Komuniti mempunyai tindak balas yang positif, negatif, atau neutral kepada anda dan jenama anda boleh membantu anda menentukan bagaimana untuk terus mengendalikan pendekatan penglibatan media sosial anda. Bagaimana anda mengukur pesaing dalam minda penonton dalam talian anda adalah satu lagi faktor penting untuk dinilai. Anda juga boleh memanfaatkan ...

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Cara Tanya Ahli Komuniti Dalam Talian untuk Ulasan - dummies

Tidak ada yang salah dengan menjangkau para blogger, penulis, dan ahli komuniti dalam talian lain dan bertanya kepada mereka jika mereka berminat untuk menyemak jenama atau komuniti anda. Perbezaan antara penginjilan jenama dan melakukan kajian semula adalah bahawa penginjil jenama tidak mengkaji: Mereka mempromosikan, dan mereka diberi pampasan sebagai pertukaran untuk promosi mereka. Penilai, di ...

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Cara Mengiklankan Syarikat Anda melalui Penajaan Blog - patung

Untuk cara percikan untuk dilihat blog atau laman web, pertimbangkan menaja laman web ini. Penajaan untuk blog popular telah mendapat banyak perhatian dalam blogosphere. Sesetengah blogger menyeru menerima tajaan "menjual keluar," tetapi yang lain menganggapnya sebagai cara terbaik untuk mendapatkan bayaran untuk melakukan apa yang mereka suka. Penajaan cenderung kepada ...