-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
K-Fold isssue #18
Comments
test_df es una porcion tomada al azar de diff_df_union_ti => podria tomar
los mismos elementos que test_df del paso anterior (mal)
No toma los mismos valores que el paso anterio porque diff_df_union_ti
= [ds.pandas_df
- [t0,t1..]] (ti, son los tiest_df de las iteraciones anteriores)
Lo que esta mal es que el conjunto de entrenamiento queda mas chico.
cambio la linea:
train_df = diff_df_union_ti.loc[~diff_df_union_ti.index.isin(test_df.index), :]
por
train_df = ds.pandas_df.loc[~ds.pandas_df.index.isin(test_df.index), :]
Paso ejemplo de ejcucion:
Iteracion : 0
test
Tiempo Temperatura Humedad Viento Juega
11 Nuboso Templado Alta Fuerte YES
9 Lluvioso Templado Normal Suave YES
5 Lluvioso Frio Normal Fuerte NO
7 Soleado Templado Alta Suave NO
train
Tiempo Temperatura Humedad Viento Juega
0 Soleado Caluroso Alta Suave NO
1 Soleado Caluroso Alta Fuerte NO
2 Nuboso Caluroso Alta Suave YES
3 Lluvioso Templado Alta Suave YES
4 Lluvioso Frio Normal Suave YES
6 Nuboso Frio Normal Fuerte YES
8 Soleado Frio Normal Suave YES
10 Soleado Templado Normal Fuerte YES
12 Nuboso Caluroso Normal Suave YES
13 Lluvioso Templado Alta Fuerte NO
Iteracion : 1
test
Tiempo Temperatura Humedad Viento Juega
2 Nuboso Caluroso Alta Suave YES
10 Soleado Templado Normal Fuerte YES
13 Lluvioso Templado Alta Fuerte NO
1 Soleado Caluroso Alta Fuerte NO
train
Tiempo Temperatura Humedad Viento Juega
0 Soleado Caluroso Alta Suave NO
3 Lluvioso Templado Alta Suave YES
4 Lluvioso Frio Normal Suave YES
5 Lluvioso Frio Normal Fuerte NO
6 Nuboso Frio Normal Fuerte YES
7 Soleado Templado Alta Suave NO
8 Soleado Frio Normal Suave YES
9 Lluvioso Templado Normal Suave YES
11 Nuboso Templado Alta Fuerte YES
12 Nuboso Caluroso Normal Suave YES
Iteracion : 2
test
Tiempo Temperatura Humedad Viento Juega
12 Nuboso Caluroso Normal Suave YES
4 Lluvioso Frio Normal Suave YES
6 Nuboso Frio Normal Fuerte YES
0 Soleado Caluroso Alta Suave NO
train
Tiempo Temperatura Humedad Viento Juega
1 Soleado Caluroso Alta Fuerte NO
2 Nuboso Caluroso Alta Suave YES
3 Lluvioso Templado Alta Suave YES
5 Lluvioso Frio Normal Fuerte NO
7 Soleado Templado Alta Suave NO
8 Soleado Frio Normal Suave YES
9 Lluvioso Templado Normal Suave YES
10 Soleado Templado Normal Fuerte YES
11 Nuboso Templado Alta Fuerte YES
13 Lluvioso Templado Alta Fuerte NO
Iteracion : 3
test
Tiempo Temperatura Humedad Viento Juega
8 Soleado Frio Normal Suave YES
3 Lluvioso Templado Alta Suave YES
train
Tiempo Temperatura Humedad Viento Juega
0 Soleado Caluroso Alta Suave NO
1 Soleado Caluroso Alta Fuerte NO
2 Nuboso Caluroso Alta Suave YES
4 Lluvioso Frio Normal Suave YES
5 Lluvioso Frio Normal Fuerte NO
6 Nuboso Frio Normal Fuerte YES
7 Soleado Templado Alta Suave NO
9 Lluvioso Templado Normal Suave YES
10 Soleado Templado Normal Fuerte YES
11 Nuboso Templado Alta Fuerte YES
12 Nuboso Caluroso Normal Suave YES
13 Lluvioso Templado Alta Fuerte NO
El 17 de abril de 2018, 15:22, Bruno Piaggio <[email protected]>
escribió:
… union_ti = pd.DataFrame()
n = round(ds.pandas_df.__len__() / k)
errors = [0 for i in range(k)]
for i in range(k):
diff_df_union_ti = ds.pandas_df.loc[~ds.pandas_df.index.isin(union_ti.index), :]
test_df = diff_df_union_ti.sample(n=min(n, len(diff_df_union_ti)))
union_ti = pd.concat([union_ti, test_df])
train_df = diff_df_union_ti.loc[~diff_df_union_ti.index.isin(test_df.index), :]
Este es el razonamiento paso a paso que hice del código
<https://github.com/acabreragnz/aa-18/blob/acfce0c451d64c5f28f33135db1708c82e782205/lab2/ej5/src/k_fold_cross_validation.py#L29>
:
al empezar primer iteracion: union_ti vacio
al terminar primer iteracion:
diff_df_union_ti es todo el dataset
test_df es una porcion tomada al azar (esta bien)
union_ti = test_df
train_df es todo lo que esta en diff_df_union_ti pero no en test_df (esta
bien)
al terminar segunda iteracion:
union_ti es la union del nuevo test_df con el test_df del paso anterior
test_df es una porcion tomada al azar de diff_df_union_ti => podria tomar
los mismos elementos que test_df del paso anterior (mal)
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub
<#18>, or mute the thread
<https://github.com/notifications/unsubscribe-auth/AFD-IfYTDHW2XhOdoMOYzEOO4rS1jxq0ks5tpjMAgaJpZM4TY0Kf>
.
|
Ahora entendí, con la corrección queda ok 👌 gracias |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Este es el razonamiento paso a paso que hice del código :
The text was updated successfully, but these errors were encountered: