Omalala - PDF ingyenes letöltés
Adatimportálás, leírás DATA 2

Adatfájl, leíró statisztikák és grafikák importálása # az alapértelmezett mappa módosítása import os os.chdir (") #data import import pandas fromage = pandas.read_table ("fromage.txt", sep = "\ t", header = 0, index_col = 0) #data dimenzió nyomtatás (fromage.shape) # leíró statisztikai nyomtatás (fromage.describe ()) #graphic - a pandas.tools.plan változók két-két keresztezése. scatter_matrix scatter_matrix (sajt, figsize = (9,9)) Ez a típusú gráf soha nem ártalmatlan. Megjegyezzük például, hogy (1) a "lipidek" szoros összefüggésben vannak a "kalóriákkal" és a "koleszterinnel" (túl sok meglepetés nélkül) (megjegyzés: ugyanaz az információ háromszor súlyozódik az elemzés során); (2) bizonyos konfigurációkban a csoportok természetesnek tűnnek (pl. A „fehérjék” és a „koleszterin” keresztezése, meglehetősen markáns csoportok közötti korrelációval). 4
Hierarchikus emelkedő besorolás CAH 5
Hierarchikus növekvő besorolás A "scipy" csomag #librairies pour la CAH matplotlib import pyplot-ból plt-ként a scipy.cluster.hierarchy import dendrogramból, linkage # -ből generálja a linkek mátrixát Z = linkage (fromage_cr, method = 'ward', metric = 'euclidean') #dendrogram plt.title ("cah") dendrogram (z, labels = fromage.index, orientation = 'left', color_threshold = 0) plt.show () A dendrogram "felosztást javasol" 4 csoport. Megjegyezzük, hogy a sajtok egyik osztálya, a „friss sajtok” (bal szélen) abban a tekintetben különböztethető meg a többiek közül, hogy figyelembe vehettük volna csak 2 csoportra történő felosztást is. Erre még hosszabban visszatérünk, amikor összekeverjük az elemzést egy fő komponens elemzéssel (PCA). 6.
K-MEANS mobilközpont módszer 8
Mobilközpont-módszer segítség a csoportok megfelelő számának kimutatásában A K-MEANS a CAH-val ellentétben nem nyújt segítséget az osztályok számának felderítésében. Be kell programoznunk őket Pythonba, vagy a dedikált csomagok által kínált eljárásokat kell használnunk. A diagram gyakran megegyezik: az egyik megváltoztatja a csoportok számát, és egy figyeli a megoldás minőségi mutatójának alakulását, azaz. az egyének alkalmassága arra, hogy közelebb álljanak azonos csoport rokonaihoz, mint más csoportokhoz. A következőkben a „sziluett” mutatót a mozgó középpont módszeréből adódó különböző csoportok számára számítják ki. # könyvtár a partíció kiértékeléséhez a sklearn import metrikáiból # a "sziluett" mutató használata # a fürtök számának 2-től 10-ig változik res = np.arange (9, dtype = "double") k esetén np.arange (9): km = cluster.kmeans (n_clusters = k + 2) km.fit (fromage_cr) res [k] = metrics.silhouette_score (fromage_cr, km.labels_) print (res) #graphic import matplotlib.pyplot as plt plt. title ( "sziluett") plt.xlabel ("fürtök száma") plt.plot (np.arange (2,11,1), res) plt.show () A k = 2 csoportos partíció tűnik a legjobbnak abban az értelemben, hogy a „sziluett” mutató. Megjegyzés: Furcsa, R. 10 alatt nem ugyanazok az eredmények születtek