Rumah Kewangan Peribadi Sains Data: Menggunakan Python untuk Menjalankan Faktor dan Analisis Komponen Utama - makmies

Sains Data: Menggunakan Python untuk Menjalankan Faktor dan Analisis Komponen Utama - makmies

Isi kandungan:

Video: Software Testing Tutorials for Beginners 2024

Video: Software Testing Tutorials for Beginners 2024
Anonim

Para saintis data boleh menggunakan Python untuk melaksanakan faktor dan analisa komponen utama. SVD beroperasi terus pada nilai angka dalam data, tetapi anda juga boleh menyatakan data sebagai hubungan antara pembolehubah. Setiap ciri mempunyai variasi tertentu. Anda boleh mengira variabiliti sebagai ukuran varians di sekitar min. Semakin varians, semakin banyak maklumat yang terdapat di dalam pemboleh ubah tersebut.

Selain itu, jika anda meletakkan pembolehubah ke dalam satu set, anda boleh membandingkan varians dua pembolehubah untuk menentukan sama ada ia berkaitan, yang merupakan ukuran seberapa kuat mereka mempunyai nilai yang sama.

Memeriksa semua korelasi mungkin pemboleh ubah dengan yang lain dalam set itu, anda dapat mengetahui bahawa anda mungkin mempunyai dua jenis varians:

  • Varians yang unik: Sesetengah varians adalah unik untuk pemboleh ubah di bawah peperiksaan. Ia tidak boleh dikaitkan dengan apa yang berlaku kepada pembolehubah lain.

  • Varians yang dikongsi: Sesetengah varians dikongsi dengan satu atau lebih pembolehubah lain, mewujudkan redundansi dalam data. Redundansi membayangkan bahawa anda boleh mencari maklumat yang sama, dengan nilai yang sedikit berbeza, dalam pelbagai ciri dan merentasi banyak pemerhatian.

Sudah tentu, langkah seterusnya adalah untuk menentukan sebab untuk varians dikongsi. Mencuba menjawab soalan semacam itu, serta menentukan bagaimana menangani variasi yang unik dan dikongsi, membawa kepada penciptaan faktor dan analisa komponen utama.

Memandangkan model psikometrik

Lama sebelum banyak algoritma pembelajaran komputer dipikirkan, psikometrik , disiplin dalam psikologi yang berkaitan dengan pengukuran psikologi, cuba mencari penyelesaian statistik untuk mengukur dimensi secara berkesan dalam keperibadian. Keperibadian manusia, seperti aspek lain manusia, tidak dapat diukur secara langsung. Sebagai contoh, tidak mungkin untuk mengukur dengan tepat berapa banyak orang yang introvert atau pintar. Soal soal selidik dan ujian psikologi hanya memberi petunjuk kepada nilai-nilai ini.

Pakar psikologi tahu tentang SVD dan cuba menerapkannya kepada masalah. Varians yang dikongsi menarik perhatian mereka: Jika beberapa pembolehubah hampir sama, mereka harus mempunyai punca yang sama, mereka fikir. Psikologi mencipta analisis faktor untuk melaksanakan tugas ini! Daripada menggunakan SVD secara terus ke data, mereka menggunakannya pada matriks yang baru dibuat menjejaki varians yang lazim, dengan harapan untuk memelopori semua maklumat dan memulihkan ciri-ciri berguna baru yang dipanggil fa c tors .

Mencari faktor tersembunyi

Cara yang baik untuk menunjukkan cara menggunakan analisis faktor adalah dengan memulakan dataset Iris.

dari sklearn. dataset import load_iris from sklearn. penguraian impak Faktor Analisa iris = load_iris () X, y = iris. data, iris. faktor sasaran = FactorAnalysis (n_components = 4, random_state = 101). patut (X)

Selepas memuatkan data dan menyimpan semua ciri ramalan, kelas FaktorAnalisisis diasaskan dengan permintaan untuk mencari empat faktor. Data tersebut kemudian dipasang. Anda boleh meneroka hasil dengan memerhati atribut komponen_, yang mengembalikan array yang mengandungi ukuran hubungan antara faktor yang baru dibuat, diletakkan di baris, dan ciri asal, diletakkan di dalam lajur.

Di persimpangan setiap faktor dan ciri, nombor positif menunjukkan bahawa perkadaran positif wujud antara kedua-dua; sebilangan negatif, sebaliknya, menunjukkan bahawa mereka menyimpang dan satu adalah yang bertentangan dengan yang lain.

Anda perlu menguji nilai yang berbeza dari n_components kerana tidak mungkin untuk mengetahui berapa banyak faktor yang ada dalam data. Sekiranya algoritma diperlukan untuk lebih banyak faktor daripada wujud, ia akan menghasilkan faktor dengan nilai yang rendah dalam array komponen_.

panda import sebagai pd cetak ke pd. DataFrame (faktor komponen, lajur = iris. Feature_names) sepal panjang (cm) sepal lebar (cm) panjang kelopak (cm) lebar kelopak (cm) 0 0. 707227 -0. 153147 1. 653151 0. 701569 1 0. 114676 0. 159763 -0. 045604 -0. 014052 2 0. 000000 -0. 000000 -0. 000000 -0. 000000 3 -0. 000000 0. 000000 0. 000000 -0. 000000

Dalam ujian pada dataset Iris, contohnya, faktor yang dihasilkan harus maksimum 2, bukan 4, karena hanya dua faktor yang mempunyai hubungan signifikan dengan ciri-ciri asli. Anda boleh menggunakan kedua-dua faktor ini sebagai pemboleh ubah baru dalam projek anda kerana ia mencerminkan ciri yang tidak kelihatan tetapi penting bahawa data yang tersedia sebelum ini hanya membayangkan.

Menggunakan komponen, bukan faktor

Jika SVD berjaya digunakan untuk varians biasa, anda mungkin tertanya-tanya mengapa anda tidak boleh memohon kepada semua variasi. Menggunakan matriks permulaan yang diubah suai, semua hubungan dalam data dapat dikurangkan dan dimampatkan dengan cara yang sama seperti bagaimana SVD melakukannya.

Keputusan proses ini, yang agak sama dengan SVD, dipanggil analisis komponen utama (PCA). Ciri yang baru diwujudkan dinamakan komponen . Berbeza dengan faktor, komponen tidak digambarkan sebagai penyebab utama struktur data tetapi hanya disusun semula data, jadi anda boleh melihatnya sebagai penjumlahan besar dan pintar pembolehubah yang dipilih.

Untuk aplikasi sains data, PCA dan SVD agak sama. Walau bagaimanapun, PCA tidak terjejas oleh skala ciri-ciri asal (kerana ia berfungsi pada langkah-langkah korelasi yang terikat di antara -1 dan +1) dan PCA memberi tumpuan kepada membina semula hubungan antara pembolehubah, dengan itu menawarkan hasil yang berbeza dari SVD.

Mencapai pengurangan dimensi

Prosedur untuk mendapatkan PCA agak sama dengan analisis faktor.Perbezaannya adalah bahawa anda tidak menentukan jumlah komponen yang akan diambil. Anda memutuskan kemudian berapa komponen yang harus disimpan setelah memeriksa atribut dijelaskan_variance_ratio_, yang memberikan kuantifikasi nilai informatif bagi setiap komponen yang diekstrak. Contoh berikut menunjukkan cara melaksanakan tugas ini:

dari sklearn. penguraian import PCA panda import sebagai pd pca = PCA (). cetak patut (X) 'Varians dijelaskan oleh komponen:% s'% pca. explained_variance_ratio_ printable pd. DataFrame (komponen komponen, lajur = iris. Feature_names) Variance dijelaskan oleh komponen: [0. 92461621 0. 05301557 0. 01718514 0. 00518309] sepal panjang (cm) sepal lebar (cm) panjang kelopak (cm) lebar kelopak (cm) 0 0. 361590 -0. 082269 0. 856572 0. 358844 1 -0. 656540 -0. 729712 0. 175767 0. 074706 2 0. 580997 -0. 596418 -0. 072524 -0. 549061 3 0. 317255 -0. 324094 -0. 479719 0. 751121

Dalam penguraian ini dataset Iris, array vektor yang disediakan oleh menjelaskan_variance_ratio_ menunjukkan bahawa kebanyakan maklumat tertumpu kepada komponen pertama (92.5 peratus). Oleh itu, adalah mungkin untuk mengurangkan keseluruhan dataset kepada hanya dua komponen, memberikan pengurangan bunyi dan maklumat yang berlebihan dari dataset asal.

Sains Data: Menggunakan Python untuk Menjalankan Faktor dan Analisis Komponen Utama - makmies

Pilihan Editor

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Kotak dan Sempadan Sifat Cascading Style Sheets (CSS) - dummies

Sifat kotak, anda boleh meletakkan objek gaya di mana saja di dalam tetingkap penyemak imbas, objek kedudukan berbanding dengan objek lain pada halaman, dan gunakan peraturan gaya padding dan margin kotak secara selektif untuk mana-mana atau semua empat objek gaya sebagai kiri dan bawah atau atas, kiri, dan ...

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Mengira Kadar Terbuka untuk Kempen Pemasaran E-Mail Anda - dummies

Kadar adalah salah satu istilah pemasaran yang paling mengelirukan dari e-mel. Ia sebenarnya mengukur bilangan interaksi tertentu dengan pelayan e-mel selepas e-mel dihantar dinyatakan sebagai peratusan jumlah tidak melantun. E-mel anda tidak dikira sebagai terbuka sehingga salah satu daripada interaksi berikut berlaku: Penerima membolehkan imej ...

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress For Dummies Cheat Sheet - dummies

BuddyPress adalah perisian bebas sumber terbuka yang dapat anda unduh, memasang, dan gunakan untuk membina komuniti sosial anda sendiri di laman web anda yang berkuasa WordPress. Untuk melakukan ini, anda memerlukan pemahaman asas tentang ciri dan terminologi BuddyPress. Mencipta komuniti sosial anda sendiri mudah dilakukan dengan BuddyPress, tetapi jika anda memerlukan bantuan, anda boleh bertanya ...

Pilihan Editor

Menikmati Magic of Mindful Movies - dummies

Menikmati Magic of Mindful Movies - dummies

Tidak ada cara yang lebih baik untuk mengembangkan pengalaman pemikiran anda melampaui batas fizikal United Kingdom dan mengembangkan wawasan anda daripada menikmati filem yang cenderung berfikiran. Filem untuk kanak-kanak: Kung Fu Panda (Mark Osborne, John Stevenson, 2008). Filem animasi moden ini sering merujuk kepada kuasa yang datang dari ...

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Memperluaskan Kesedaran Anda dengan Mendengarkan CD - manisan

Kadang-kadang, hanya apa yang anda perlukan untuk pengalaman pemikiran yang mendalam. Mendengarkan CD berkualiti boleh memindahkan anda ke luar United Kingdom dan benar-benar membuka fikiran anda kepada idea-idea. CD berikut disyorkan: Meditasi Berpandu: Untuk Ketenangan, Kesedaran dan Cinta oleh Bodhipaksa. A ...

Freemason yang terkenal - orang-orang buatan

Freemason yang terkenal - orang-orang buatan

Yang hebat dan paling cemerlang di dunia atau Freemason. Kumpulan-kumpulan ini memberikan anda jauh dari senarai komprehensif - mereka hanya contoh: Bapa pengasas: Freemason yang paling terkenal di Amerika, George Washington telah dimulakan pada tahun 1752, di Fredericksburg, Virginia. Bapa pengasas lain yang juga Mason termasuk Benjamin Franklin, Marquis de ...

Pilihan Editor

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Rakaman Portraits dengan Canon EOS Rebel T1i / 500D - patung

Subjek tertumpukan tajam dan latar belakang yang lembut dan kabur. Ikuti langkah-langkah ini untuk mengambil potret seperti Canon Rebel Digital anda.

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

Menukar Canon EOS Rebel T7i / 800D ke Mod Live View - dummies

DSLR yang dijual hari ini, kamera Canon EOS Rebel T7i / 800D menawarkan Live View, yang menyahdayakan pemidang tilik dan sebaliknya memaparkan pratonton langsung subjek anda pada monitor kamera. Senarai berikut menerangkan asas penggunaan Live View: Switch to Live View for photography: Tekan butang Live View untuk beralih dari ...