Isi kandungan:
Video: FaceApp Yang Sedang Viral Apakah Benar Bisa Mencuri Data? Simak Video ini. 2024
Kebanyakan dataset datang dengan beberapa jenis metadata, yang pada dasarnya merupakan perihalan data dalam fail. Metadata biasanya merangkumi penerangan mengenai format, beberapa petunjuk tentang nilai-nilai di setiap medan data, dan nilai-nilai ini.
Apabila anda berhadapan dengan dataset baru, jangan sekali-kali mengambil metadata pada nilai muka. Sifat besar data memerlukan sistem yang menghasilkannya disimpan dan berjalan sebanyak mungkin. Atas sebab ini, mengemas kini metadata untuk sistem ini apabila perubahan dilaksanakan tidak selalu menjadi keutamaan. Anda perlu mengesahkan bahawa data benar-benar adalah sebagai tuntutan metadata.
Memeriksa sumber anda
Seperti yang jelas kerana ia mungkin berbunyi, adalah penting bahawa anda mempunyai kepercayaan di mana data anda berasal. Ini amat penting apabila anda membeli data. Beribu-ribu vendor di luar sana menawarkan setiap jenis data yang boleh dibayangkan. Dan mereka tidak semua kredibiliti sama.
Sebelum membeli data, cuba memahami dengan tepat di mana dan bagaimana vendor mengumpulnya. Misteri dan kekeliruan adalah bendera merah.
Jangan ambil vendor dengan kata-kata mereka. Jangan hanya bergantung pada siaran kepuasan pelanggan di laman web atau rujukan klien yang disediakan oleh vendor. Jika boleh, cuba menjejaki seseorang yang menggunakan atau menggunakan data tersebut.
Jika data anda berasal dari sistem dalaman, masih penting untuk menilai sumber-sumbernya. Sistem yang berbeza mempunyai tujuan yang berbeza dan oleh itu memberi tumpuan kepada data yang berbeza. Mereka juga boleh mengumpul data pada masa yang berlainan.
Sebagai contoh, adalah tidak biasa untuk beberapa rantaian hotel untuk menempah tempahan dalam sistem yang berasingan dari yang mereka gunakan di kaunter penerimaan tetamu semasa tetamu mendaftar masuk. Mungkin tetamu boleh menerima tawaran diskaun antara tempahan dan daftar masuk. Ini bermakna kadar bilik dalam sistem tempahan tidak sepadan dengan kadar di sistem meja depan. Terlebih lagi, tempahan mungkin dibatalkan dan tidak pernah dibuat ke meja depan!
Sekarang, katakan anda menjalankan analisis pendapatan hotel oleh bandar. Adalah lebih penting bahawa anda tahu bahawa data kadar bilik anda diperoleh dari sistem meja depan dan bukan sistem tempahan. Tetapi bagaimana jika anda cuba menganalisis berapa banyak tempahan yang dihasilkan oleh syarikat Super Bowl syarikat anda? Dalam kes ini, anda mahu melihat data dari sistem tempahan.
Contoh hotel menggambarkan bahawa walaupun data bersih secara intrinsik boleh menjadi masalah. Walaupun data adalah tepat dan tepat seperti apa yang dikatakannya, masa boleh menjadi masalah.Data berubah mengikut masa.
Mengesahkan format
Seperti yang disebutkan sebelumnya dalam bab ini, salah satu perkara yang akan disediakan oleh metadata anda adalah petunjuk bagaimana data diformat. Dengan diformat, kita maksudkan bagaimana setiap elemen data tertentu kelihatan. Adakah "Kod Produk" satu watak atau numeral? Adakah "Tarikh Mula" tarikh atau adakah setem itu?
Jenis data penting dalam analisis statistik kerana mereka menentukan statistik dan prosedur statistik yang boleh digunakan untuk elemen data mana. Jika anda cuba mengambil nilai purata medan aksara seperti "Nama Pertama," anda akan mendapat mesej ralat setiap kali.
Biasanya, jenis metadata ini cukup tepat. Ia biasanya disimpan oleh sistem yang memegang data dan boleh dijana secara automatik. Mengesahkan format biasanya cukup mudah. Pengesahan sedemikian pada asasnya merupakan hasil sampingan pengesahan rentang data yang dibincangkan dalam bahagian yang berikut. Tetapi terdapat keadaan di mana ia boleh menjadi sedikit lebih sukar.
Kami telah melihat satu senario sedemikian lebih banyak daripada yang kita ambil perhatian. Ia berlaku kadang-kadang apabila sistem yang pertama dirancang, pasukan pembangunan cuba untuk meletakkan beberapa fleksibiliti ke dalam struktur data untuk menampung peningkatan masa depan. Kadang-kadang mereka hanya menambah sekumpulan lajur alfa-angka yang kosong (dan luas) pada akhir setiap rekod. Lajur tambahan ini pada mulanya tidak digunakan untuk apa-apa.
Penganalisis akan selalu menyimpang dari sisi meminta lebih banyak data daripada kurang semua data dan bukan beberapa. Fakta ini, digabungkan dengan keperluan untuk mendapatkan data dengan cepat, kadang-kadang menghasilkan dump data. Pembuangan ini secara amnya merangkumi lajur tambahan. Dalam kes ini, metadata memberitahu anda sesuatu seperti "Medan 1-11" diformatkan sebagai "aksara abjad angka 200. "
Maklumat sedemikian praktikal tidak berguna. Untuk memahami medan data seperti ini, anda cukup mendapat kotor tangan anda. Tidak banyak yang boleh anda lakukan kecuali halaman melalui beberapa rekod sedozen dan cuba meneka tentang apa sebenarnya di lapangan. Dalam kebanyakan kes, bidang ini cenderung kosong. Tetapi tidak semestinya. Berita baik ialah jika bidang sebenarnya digunakan, anda harus dapat mencari seorang programmer di suatu tempat yang tahu apa yang digunakan.
Menodai data anda
Salah satu langkah paling kritikal dalam melakukan analisis statistik adalah memastikan data anda adalah apa yang dimaksudkan. Prosedur statistik akan selalu crash jika anda tidak memberikan maklumat yang sah tentang format data. Tetapi prosedur ini sebahagian besarnya buta terhadap masalah dengan kesahihan data.
Memahami bagaimana bidang data diformat tidak mencukupi. Sebelum mengalihkan dataset kepada prosedur statistik, anda perlu memahami data sebenarnya dalam setiap bidang yang anda gunakan.
Kebanyakan data jatuh ke dalam satu daripada empat kategori: nominal, ordinal, selang, dan nisbah.Jenis data menentukan jenis statistik dan prosedur statistik yang boleh digunakan untuk bidang data tertentu. Anda tidak boleh mengambil purata medan seperti "Nama Akhir", sebagai contoh.
Mengelirukan jenis data dengan format data mudah (dan terlalu umum). Mengetahui sama ada medan data adalah watak, integer, atau berterusan tidak memberitahu anda jenis data.
Bidang aksara kadangkala digunakan sebagai ruang letak untuk data yang mungkin ditangkap dalam siaran masa depan sistem. Tiada apa-apa untuk menghalang bidang tersebut daripada digunakan untuk menangkap data berangka monetari atau lain-lain.
Kesilapan jenis data yang paling biasa melibatkan mengandaikan bahawa bidang berangka, terutamanya medan bernilai integer, sebenarnya mengandungi data ordinal . Adalah sangat umum untuk syarikat menggunakan kod angka ( nominal data) untuk mewakili produk, wilayah, kedai, dan pelbagai entiti lain.
Kod penerbangan syarikat penerbangan adalah satu contoh. Kawasan banci adalah satu lagi. Malah kad kredit dan nombor Keselamatan Sosial biasanya disimpan sebagai bilangan bulat. Tetapi semua entiti ini hanya pengenal. Mereka adalah nominal pembolehubah. Nombor kad kredit purata dalam portfolio bank adalah statistik yang tidak bermakna.