import numpy as np
carte_nap = np.array([0.5] * 12 + [1] * 4 + [2] * 4 + [3] * 4 + [4] * 4 + [5] * 4 + [6] * 4 + [7] * 4) # ricorda: qui l'operatore + concatena le liste che creo
#sto creando delle liste, [elementi_lista] * numero_liste_da_generare
print(carte_nap)

[0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 1.  1.  1.  1.  2.  2.
 2.  2.  3.  3.  3.  3.  4.  4.  4.  4.  5.  5.  5.  5.  6.  6.  6.  6.
 7.  7.  7.  7. ]

#algoritmo di mescolazione carte
arr = np.array([0.0]*40) #genero un array da 40 zeri

for i in range(0,40):
    trovato = False
    rd_pos = 0
    while(trovato == False):
        rd_pos = np.random.randint(0,40)
        if(arr[rd_pos] == 0):
            arr[rd_pos] = carte_nap[i]
            trovato=True

    
print(arr)     
#in alternativa ovviamente ci sono dei metodi come shuffle della libreria random

[5.  5.  0.5 0.5 6.  2.  4.  0.5 1.  7.  0.5 0.5 7.  4.  7.  5.  0.5 3.
 0.5 4.  0.5 0.5 1.  3.  4.  6.  1.  0.5 2.  2.  0.5 1.  3.  5.  6.  7.
 2.  0.5 6.  3. ]

print("Mezzi"+":"+str(np.count_nonzero(arr == 0.5)))
for i in range(1,8):  #8 perchè ricordiamoci che la range(x,y) arriva a y-1 
    print("Carta " + str(i) + ":"+str(np.count_nonzero(arr == float(i))) )

Mezzi:12
Carta 1:4
Carta 2:4
Carta 3:4
Carta 4:4
Carta 5:4
Carta 6:4
Carta 7:4

import numpy as np
import pandas as pd


class Giocata:
    def __init__(self):
        self.mazzo = arr.tolist()  # Converte da numpy array a lista
        self.initial_card = self.mazzo.pop(np.random.randint(0, len(self.mazzo)))  # Estrazione senza reinserimento
        self.initial_card_banco = self.mazzo.pop(np.random.randint(0, len(self.mazzo)))  # Estrazione senza reinserimento
        self.esito = ""
        a1, num1 = self.gioca(self.initial_card)
        a2, num2 = self.gioca(self.initial_card_banco)
        if a1 > 7.5 and a2 > 7.5:
            self.esito = "sconfitta"  # Vince il banco se entrambi sballano
        elif a1 > 7.5:
            self.esito = "sballato"
        elif a2 > 7.5 and a1 <= 7.5:
            self.esito = "vittoria"
        elif a1 > a2 and a1 <= 7.5:
            self.esito = "vittoria"
        elif a1 < a2 and a2 <= 7.5:
            self.esito = "sconfitta"
        elif a1 == a2:
            self.esito = "sconfitta"  # Il banco vince in caso di pareggio

        self.amount = a1
        self.num_card = num1

    def gioca(self, amount):
        num_of_cards = 0
        while(amount <= 7.5):
            random_choice = np.random.randint(0, 2)  # 0 -> stare, 1 -> chiedere carta
            if random_choice == 1:  # Se decidiamo di chiedere una carta
                new_card = self.mazzo.pop(np.random.randint(0, len(self.mazzo)))  # Estrazione senza reinserimento
                amount += new_card
                num_of_cards += 1
                if(amount > 7.5):
                    break
            else:  # Se decidiamo di stare, ci fermiamo
                break
        return amount, num_of_cards  # Ritorno l'importo finale e il numero di carte estratte

#simuliamo 10 giocate
for i in range(1,10):
    g = Giocata()
    print(g.esito+" "+str( g.amount )+" num card:"+str(g.num_card)) 
#adesso siamo pronti a generare il dataframe

vittoria 2.5 num card:3
sballato 10.5 num card:2
sconfitta 3.5 num card:1
vittoria 7.0 num card:0
sconfitta 5.0 num card:0
sconfitta 8.0 num card:1
sconfitta 2.0 num card:0
sconfitta 5.0 num card:1
vittoria 7.5 num card:2

import random

# Inizializzo il dizionario con le carte valide
valori_carte = {0: 0, 1: 0, 2: 0, 3: 0, 4: 0, 5: 0, 6: 0, 7: 0}

# Definisco valori e pesi in base alla composizione reale del mazzo
valori = [0] * 12 + [1, 2, 3, 4, 5, 6, 7] * 4

# Simulo N estrazioni
N = 1000000
estrazioni = random.choices(valori, k=N)

# Aggiorno il conteggio
for e in estrazioni:
    valori_carte[e] += 1

# Mostro il risultato finale
print(valori_carte)

{0: 299705, 1: 100163, 2: 100011, 3: 100118, 4: 100043, 5: 99966, 6: 100521, 7: 99473}

import matplotlib.pyplot as plt

plt.bar(valori_carte.keys(),valori_carte.values(),color="black")

<BarContainer object of 8 artists>

n_estrazioni = 10000
valori = np.random.choice([0.5, 1, 2, 3, 4, 5, 6, 7], size=n_estrazioni)

# Frequenze cumulative
frequenze = [np.sum(valori[:i] == 7) / i for i in range(1, n_estrazioni + 1)]
#sta tracciando la frequenza campionaria dell'uscita della carta 7

# Plot
plt.plot(frequenze, label='Frequenza della carta 7')
plt.axhline(1/8, color='red', linestyle='--', label='Probabilità teorica (12.5%)')
plt.title('Convergenza alla probabilità teorica')
plt.xlabel('Numero di estrazioni')
plt.ylabel('Frequenza')
plt.legend()
plt.show()
#attenzione: qui stiamo considerando 8 carte, non consideriamo il fatto che ci siano più mezze. Serve solo a dimostrare che c'è indipendenza tra i lanci 
# e che quindi ogni carta ha la stessa probabilità di uscire

# Eseguiamo molte simulazioni
simulazioni = 1000000  # Numero di simulazioni
esiti = []
amounts = []
num_cards = []

for _ in range(simulazioni):
    g = Giocata()
    esiti.append(g.esito)
    amounts.append(g.amount)
    num_cards.append(g.num_card)

# Creiamo un DataFrame per analizzare i dati
df = pd.DataFrame({
    'Esito': esiti,
    'Amount': amounts,
    'Numero_Carte': num_cards
})

# Mostriamo alcune statistiche
print(df['Esito'].value_counts())  # Conta quante vittorie, sconfitte, sballati

print("Media carte in più chieste:",df['Numero_Carte'].mean())  # Media delle carte utilizzate

totale_perdita = df[df["Esito"]=="sballato"].shape[0] +df[df["Esito"]=="sconfitta"].shape[0]

plt.figure(figsize=(10, 6))
plt.bar(['Vittoria',"Sconfitte Totali"],[df[df["Esito"]=="vittoria"].shape[0],totale_perdita], color=["green","red"])

# Plot dei risultati
# Frequenza degli esiti
plt.figure(figsize=(10, 6))
df['Esito'].value_counts().plot(kind='bar', color=['green', 'red', 'blue'])
plt.title('Distribuzione degli esiti delle giocate')
plt.xlabel('Esito')
plt.ylabel('Frequenza')
plt.xticks(rotation=0)
plt.show()

# Distribuzione degli importi finali
plt.figure(figsize=(10, 6))
plt.hist(df['Amount'], bins=30, color='purple', edgecolor='black')
plt.title('Distribuzione del valore cumulato delle carte a fine giocata')
plt.xlabel('Importo finale')
plt.ylabel('Frequenza')
plt.show()

# Distribuzione del numero di carte utilizzate
plt.figure(figsize=(10, 6))
plt.hist(df['Numero_Carte'], bins=10, color='orange', edgecolor='black')
plt.title('Distribuzione del numero di carte utilizzate')
plt.xlabel('Numero di carte')
plt.ylabel('Frequenza')
plt.show()

Esito
vittoria     444502
sconfitta    365117
sballato     190381
Name: count, dtype: int64
Media carte in più chieste: 0.74605

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score
# Simulazioni già eseguite (assumiamo che 'df' sia già disponibile)
# Codifica dell'esito in numerico
df['Esito_numerico'] = df['Esito'].map({'vittoria': 1, 'sconfitta': 0, 'sballato': -1})

# Variabili indipendenti (feature)
X = df[['Amount', 'Numero_Carte']]  # Puoi aggiungere altre variabili se necessario

# Variabile dipendente (target)
y = df['Esito_numerico']

# Divisione in dati di addestramento e test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

# Creazione del modello di regressione lineare
model = LinearRegression()

# Allenamento del modello
model.fit(X_train, y_train)

# Predizioni sui dati di test
y_pred = model.predict(X_test)

# Calcolo dell'errore medio quadratico (MSE)
mse = mean_squared_error(y_test, y_pred)
print("Errore medio quadratico (MSE):", mse)

# Visualizzazione dei coefficienti del modello
print("Coefficienti del modello:", model.coef_)
print("Intercetta:", model.intercept_)

# Predizioni su tutte le simulazioni
df['predizione'] = model.predict(X)

# Calcola l'accuratezza
print("Percentuale Predizioni giuste con predizione>0.1: "+str((df[(df["Esito"] == "vittoria") & (df["predizione"] > 0.2)].shape[0] / df[df["predizione"]>0.2].shape[0] )*100) + "%" )


# df[df["predizione"]>0.7].shape[0]

# Analizziamo le prime 5 predizioni
pd.set_option('display.max_rows', 100)#togliamo il limite di visualizzazione righe e lo mettiamo a 100
print(df[['Amount', 'Numero_Carte', 'Esito', 'predizione']].head(10))

Errore medio quadratico (MSE): 0.43654303303503633
Coefficienti del modello: [-0.07789824 -0.12903786]
Intercetta: 0.7531272934110613
Percentuale Predizioni giuste con predizione>0.1: 54.319150822499665%
   Amount  Numero_Carte      Esito  predizione
0     9.0             2   sballato   -0.206033
1     4.0             0  sconfitta    0.441534
2     6.0             0   vittoria    0.285738
3     0.5             0   vittoria    0.714178
4    14.0             1   sballato   -0.466486
5     3.5             1  sconfitta    0.351446
6     2.0             0   vittoria    0.597331
7    12.0             1   sballato   -0.310689
8     1.0             0   vittoria    0.675229
9     1.5             1  sconfitta    0.507242

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.metrics import f1_score

# Codifica dell'esito in numerico
df['Esito_numerico'] = df['Esito'].map({'vittoria': 1, 'sconfitta': 0, 'sballato': -1})

# Variabili indipendenti (feature)
X = df[['Amount', 'Numero_Carte']]  # Puoi aggiungere altre variabili se necessario

# Variabile dipendente (target)
y = df['Esito_numerico']

# Divisione in dati di addestramento e test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

# Creazione del modello di regressione logistica
model = LogisticRegression()

# Allenamento del modello
model.fit(X_train, y_train)

# Predizioni sui dati di test
y_pred = model.predict(X_test)

# Calcoliamo l'accuratezza
accuracy = accuracy_score(y_test, y_pred)
print("Accuratezza della regressione logistica:", accuracy)

# Matrice di confusione
cm = confusion_matrix(y_test, y_pred)
print("Matrice di confusione:")
print(cm)

# Calcola l'F1 Score
f1 = f1_score(y_test, y_pred, average='weighted')  # Puoi usare 'macro' o 'weighted' per bilanciare le classi
print("Punteggio F1:", f1)

#Significato dell'argomento average:
# • 'macro': Calcola l'F1 Score per ciascuna classe e poi fa la media. Non considera l'imbalanciamento delle classi.
# • 'weighted': Calcola l'F1 Score per ciascuna classe e poi fa la media ponderata, pesando le classi in base al loro numero. È utile se le classi sono sbilanciate.
# • 'micro': Calcola globalmente il punteggio F1 considerando il numero totale di veri positivi, falsi positivi e falsi negativi.

# Analizziamo le prime 10 predizioni
df['predizione_logistica'] = model.predict(X)
print(df[['Amount', 'Numero_Carte', 'Esito', 'predizione_logistica']].head(10))

Accuratezza della regressione logistica: 0.67336
Matrice di confusione:
[[15707     0  3487]
 [ 5014 18303 13119]
 [   67 10977 33326]]
Punteggio F1: 0.667372678610514
   Amount  Numero_Carte      Esito  predizione_logistica
0     9.0             2   sballato                    -1
1     4.0             0  sconfitta                     1
2     6.0             0   vittoria                     1
3     0.5             0   vittoria                     0
4    14.0             1   sballato                    -1
5     3.5             1  sconfitta                     1
6     2.0             0   vittoria                     1
7    12.0             1   sballato                    -1
8     1.0             0   vittoria                     0
9     1.5             1  sconfitta                     0

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Variabili indipendenti (feature)
X = df[['Amount', 'Numero_Carte']] 

# Variabile dipendente (target)
y = df['Esito_numerico']

# Divisione in dati di addestramento e test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=42)

# Creazione del modello di regressione logistica
model = LogisticRegression()

# Allenamento del modello
model.fit(X_train, y_train)

# Predizioni sui dati di test
y_pred = model.predict(X_test)
y_proba = model.predict_proba(X_test)[:, 1]  # Probabilità di vittoria

# Accuracy del modello
accuracy = accuracy_score(y_test, y_pred)
print("Accuratezza:", accuracy)

# Confusion Matrix
cm = confusion_matrix(y_test, y_pred)
print("Matrice di confusione:\n", cm)

# Classification Report
print(classification_report(y_test, y_pred))

# Aggiunta delle predizioni nel dataframe
df['predizione'] = model.predict(X)
df['probabilità_vittoria'] = model.predict_proba(X)[:, 1]

# Suggerimento decisionale: conviene chiedere carta se probabilità > 0.5
df['conviene_chiedere'] = (df['probabilità_vittoria'] > 0.5).astype(int)

# Visualizziamo le prime righe
print(df[['Amount', 'Numero_Carte', 'Esito_numerico', 'probabilità_vittoria', 'conviene_chiedere']].head(10))

Accuratezza: 0.67401
Matrice di confusione:
 [[15554     0  3556]
 [ 5141 18535 12782]
 [   75 11045 33312]]
              precision    recall  f1-score   support

          -1       0.75      0.81      0.78     19110
           0       0.63      0.51      0.56     36458
           1       0.67      0.75      0.71     44432

    accuracy                           0.67    100000
   macro avg       0.68      0.69      0.68    100000
weighted avg       0.67      0.67      0.67    100000

   Amount  Numero_Carte  Esito_numerico  probabilità_vittoria  \
0    10.5             2              -1              0.063713   
1     1.0             0               0              0.523429   
2     2.0             2               1              0.604134   
3     1.0             1               1              0.582138   
4    11.5             3              -1              0.024278   
5     8.0             1              -1              0.249737   
6     5.0             0               1              0.376649   
7     7.0             0               1              0.288231   
8     7.0             0               1              0.288231   
9     7.5             1               1              0.287026   

   conviene_chiedere  
0                  0  
1                  1  
2                  1  
3                  1  
4                  0  
5                  0  
6                  0  
7                  0  
8                  0  
9                  0

import pandas as pd

# Definiamo il range per la linea di decisione
x_min, x_max = X['Amount'].min() - 1, X['Amount'].max() + 1
y_min, y_max = X['Numero_Carte'].min() - 1, X['Numero_Carte'].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100),
                     np.linspace(y_min, y_max, 100))

# Convertiamo in DataFrame con nomi coerenti
grid = pd.DataFrame(np.c_[xx.ravel(), yy.ravel()], columns=['Amount', 'Numero_Carte'])

# Calcolo della probabilità su tutta la griglia
Z = model.predict_proba(grid)[:, 1]
Z = Z.reshape(xx.shape)

# Plot decision boundary
plt.figure(figsize=(10, 6))
sns.scatterplot(x=X['Amount'], y=X['Numero_Carte'], hue=y, palette='coolwarm', edgecolor='k')
plt.contourf(xx, yy, Z, alpha=0.3, cmap='coolwarm')
plt.colorbar(label="Probabilità di vittoria")
plt.xlabel('Amount')
plt.ylabel('Numero_Carte')
plt.title('Decision Boundary - Regressione Logistica')
plt.show()

soglia = 0.5

decisione = (Z > soglia).astype(int)
plt.figure(figsize=(10, 6))

# Scatterplot dei dati reali
sns.scatterplot(x=X['Amount'], y=X['Numero_Carte'], hue=y, palette='coolwarm', edgecolor='k')

# Contour per mostrare le aree di decisione
plt.contourf(xx, yy, decisione, alpha=0.3, cmap='coolwarm')
plt.colorbar(label="Decisione (1 = chiedere carta, 0 = non chiedere)")

plt.xlabel('Amount')
plt.ylabel('Numero_Carte')
plt.title(f'Decisione in base alla soglia {soglia}')
plt.show()

from sklearn.ensemble import RandomForestClassifier

X = df[['Amount', 'Esito_numerico', 'probabilità_vittoria']]
y = df['Numero_Carte']

model = RandomForestClassifier()
model.fit(X, y)

# Visualizzazione
import matplotlib.pyplot as plt
import seaborn as sns

# Facciamo le predizioni su tutto il dataset
df['predizione'] = model.predict(X)

plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x='Amount', y='probabilità_vittoria', hue='predizione', palette='viridis')
plt.title("Strategia di richiesta carte in base alla probabilità di vittoria e all'importo")
plt.xlabel("Importo della giocata")
plt.ylabel("Probabilità di vittoria")
plt.show()

#prima però dobbiamo convertire tutte le colonne in numeri(non posso calcolare la correlazione lineare
#di una stringa con una variabile numerica)
#df['Esito_numerico'] = df['Esito'].map({'vittoria': 1, 'sconfitta': 0, 'sballato': -1})
#commento la riga perchè già lo avevamo fatto in precedenza e abbiamo la colonna.

#allora includiamo solo le colonne numeriche:
df_numeric = df.select_dtypes(include=['number'])

# Calcolare la matrice di correlazione
corr_matrix = df_numeric.corr()

# Visualizzare la matrice di correlazione come heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Matrice di Correlazione')
plt.show()

#esempio di dataset con valori null: 
import pandas as pd
import numpy as np

# Creazione di un DataFrame di esempio. A,B,C saranno le colonne del dataframe
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [5, np.nan, 3, 2, 1],
    'C': [np.nan, 3, 2, 4, 5]
}

df = pd.DataFrame(data)

print("DataFrame originale:")
print(df)

DataFrame originale:
     A    B    C
0  1.0  5.0  NaN
1  2.0  NaN  3.0
2  NaN  3.0  2.0
3  4.0  2.0  4.0
4  5.0  1.0  5.0

# Calcolo della media per ogni colonna
mean_values = df.mean()

# Sostituzione dei valori NaN con la media della colonna corrispondente
df_filled = df.fillna(mean_values)

#oppure potevamo farlo colonna per colonna(stesso risultato): 
#for col in df.columns:
#    df[col] = df[col].fillna(df[col].mean())

print("\nDataFrame dopo aver riempito i valori mancanti con la media:")
print(df_filled)

DataFrame dopo aver riempito i valori mancanti con la media:
     A     B    C
0  1.0  5.00  3.5
1  2.0  2.75  3.0
2  3.0  3.00  2.0
3  4.0  2.00  4.0
4  5.0  1.00  5.0

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Creazione di un DataFrame di esempio
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# Inizializzazione del MinMaxScaler
scaler = MinMaxScaler()

# Applicazione della normalizzazione
df_normalized = scaler.fit_transform(df)

# Creazione di un DataFrame con i valori normalizzati
df_normalized = pd.DataFrame(df_normalized, columns=df.columns)

print(df_normalized)

      A     B
0  0.00  0.00
1  0.25  0.25
2  0.50  0.50
3  0.75  0.75
4  1.00  1.00

from sklearn.preprocessing import StandardScaler

# Creazione di un DataFrame di esempio
data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
}
df = pd.DataFrame(data)

# Inizializzazione dello StandardScaler
scaler = StandardScaler()

# Applicazione della standardizzazione
df_standardized = scaler.fit_transform(df)

# Creazione di un DataFrame con i valori standardizzati
df_standardized = pd.DataFrame(df_standardized, columns=df.columns)

print(df_standardized)

          A         B
0 -1.414214 -1.414214
1 -0.707107 -0.707107
2  0.000000  0.000000
3  0.707107  0.707107
4  1.414214  1.414214

	Predetto Positivo (1)	Predetto Negativo (0)
Reale Positivo (1)	True Positive (TP)	False Negative (FN)
Reale Negativo (0)	False Positive (FP)	True Negative (TN)

Sette e Mezzo: analisi probabilità e strategie con Python¶

Cosa rappresenta il MSE?¶

Perché si usa l'errore quadratico?¶

Matrice di Confusione: Cos'è e Come si Interpreta¶

Cos'è la matrice di confusione?¶

Come si usa la matrice di confusione?¶

Come interpretare la matrice di confusione?¶

Cos'è il punteggio F1?¶

Cos'è il punteggio F1?¶

Quando usare il punteggio F1 e come si interpreta?¶

Come funziona il nostro modello¶