"""
Importiamo anche la libreria seaborn
per graficare i dati
"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df=pd.DataFrame({
'A': pd.Series( np.random.randint(10, size=4), dtype='float32'),
'B': pd.Series( np.random.randint(100, size=4), dtype='float32'),
'C':pd.Series( np.random.randint(2000, size=4), dtype='float32'),
'D':pd.Series( np.random.randint(2000, size=4), dtype='int32'),
'E':pd.Series( np.random.randint(300, size=4), dtype='int32'),
'F': pd.Categorical(["test", "train", "test", "train"]),
'G': 'foo'
})
df
"""
Riassunto delle variabili statistiche
relativi alla tabella: deviazione standard, media
minimo, massimo, eccetera
"""
df.describe()
"""
Cambiamo l'intestazione (header)
"""
df
"""
Ora importiamo nuovamente la tabella usata nella lezione 1
e visualizziamo le prime 5 righe
"""
url="https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"
df=pd.read_csv(url,header=None)
headers=["simbolo","norm-loss","marca","carburante","asp","n_di_porte","stile","trazione","lo_motore","ruote","lunghezza","larghezza","altezza","freno","tipo_motore","n_cicli","forma_motore","iniezione","bore","stroke","comp-ratio","horsepower","peak-rpm","city-mpg","high-mpg","prezzo"]
df.columns=headers
df.head(5)
"""
Ora contiamo quanti oggetti differenti ci sono nella
colonna "trazione"
"""
conteggio_trazione=df["trazione"].value_counts()
conteggio_trazione
"""
Cambiamo l'etichetta "conteggio" in valori_contati"
"""
conteggio_trazione.rename(columns={"conteggio":"valori_contati"})
conteggio_trazione.index.name="conteggio"
conteggio_trazione
"""
Per fare un grafico
"""
y=df["marca"]
x=df["prezzo"]
plt.scatter(x,y)
plt.title("Scatterplot of Model vs Price")
plt.xlabel("Prezzo")
plt.ylabel("Marca")