import numpy as np
from pyspark.mllib.clustering import KMeans

from pyspark import  SparkContext
sc = SparkContext( 'local', 'pyspark')

inputData = sc.textFile("./irisdata.csv")

type(inputData)

pyspark.rdd.RDD

inputData.count()

150

inputData.take(10)

['5.1,3.5,1.4,0.2,Iris-setosa',
 '4.9,3,1.4,0.2,Iris-setosa',
 '4.7,3.2,1.3,0.2,Iris-setosa',
 '4.6,3.1,1.5,0.2,Iris-setosa',
 '5,3.6,1.4,0.2,Iris-setosa',
 '5.4,3.9,1.7,0.4,Iris-setosa',
 '4.6,3.4,1.4,0.3,Iris-setosa',
 '5,3.4,1.5,0.2,Iris-setosa',
 '4.4,2.9,1.4,0.2,Iris-setosa',
 '4.9,3.1,1.5,0.1,Iris-setosa']

def parseData(line):
    ld = line.split(",") 
    return np.array([float(ld[0]),float(ld[1]), float(ld[2]),float(ld[3])])

modelInput = inputData.map(parseData)

modelInput.count()

150

modelInput.take(10)

[array([ 5.1,  3.5,  1.4,  0.2]),
 array([ 4.9,  3. ,  1.4,  0.2]),
 array([ 4.7,  3.2,  1.3,  0.2]),
 array([ 4.6,  3.1,  1.5,  0.2]),
 array([ 5. ,  3.6,  1.4,  0.2]),
 array([ 5.4,  3.9,  1.7,  0.4]),
 array([ 4.6,  3.4,  1.4,  0.3]),
 array([ 5. ,  3.4,  1.5,  0.2]),
 array([ 4.4,  2.9,  1.4,  0.2]),
 array([ 4.9,  3.1,  1.5,  0.1])]

numClusters = 3

KMmodel = KMeans.train(modelInput, numClusters)

print("Final centers: " + str(KMmodel.clusterCenters))
print("Total Cost: " + str(KMmodel.computeCost(modelInput)))

Final centers: [array([ 5.88360656,  2.74098361,  4.38852459,  1.43442623]), array([ 5.006,  3.418,  1.464,  0.244]), array([ 6.85384615,  3.07692308,  5.71538462,  2.05384615])]
Total Cost: 78.94506582597637

def parseData2(line):
    ld = line.split(",") 
    return (ld[4],np.array([float(ld[0]),float(ld[1]), float(ld[2]),float(ld[3])]))

checkData = inputData.map(parseData2)

checkData.count()

150

checkData.take(10)

[('Iris-setosa', array([ 5.1,  3.5,  1.4,  0.2])),
 ('Iris-setosa', array([ 4.9,  3. ,  1.4,  0.2])),
 ('Iris-setosa', array([ 4.7,  3.2,  1.3,  0.2])),
 ('Iris-setosa', array([ 4.6,  3.1,  1.5,  0.2])),
 ('Iris-setosa', array([ 5. ,  3.6,  1.4,  0.2])),
 ('Iris-setosa', array([ 5.4,  3.9,  1.7,  0.4])),
 ('Iris-setosa', array([ 4.6,  3.4,  1.4,  0.3])),
 ('Iris-setosa', array([ 5. ,  3.4,  1.5,  0.2])),
 ('Iris-setosa', array([ 4.4,  2.9,  1.4,  0.2])),
 ('Iris-setosa', array([ 4.9,  3.1,  1.5,  0.1]))]

labelsAndPreds = checkData.map(lambda p: (p[0], KMmodel.predict(p[1])) )

labelsAndPreds.saveAsTextFile("KM-lap1")

Search This Blog

Python Tutorials

Spark Python iris data

Comments

Post a Comment

Popular posts from this blog

SQL in Python

Python 12-22

Decision Tree