K-Fold isssue #18

brunopk · 2018-04-17T18:22:55Z

    union_ti = pd.DataFrame()
    n = round(ds.pandas_df.__len__() / k)
    errors = [0 for i in range(k)]

    for i in range(k):

        diff_df_union_ti = ds.pandas_df.loc[~ds.pandas_df.index.isin(union_ti.index), :]

        test_df = diff_df_union_ti.sample(n=min(n, len(diff_df_union_ti)))
        union_ti = pd.concat([union_ti, test_df])

        train_df = diff_df_union_ti.loc[~diff_df_union_ti.index.isin(test_df.index), :]

Este es el razonamiento paso a paso que hice del código :

al empezar primer iteracion: union_ti vacio
al terminar primer iteracion:
- diff_df_union_ti es todo el dataset
- test_df es una porcion tomada al azar (esta bien)
- union_ti = test_df
- train_df es todo lo que esta en diff_df_union_ti pero no en test_df (esta bien)
al terminar segunda iteracion:
- union_ti es la union del nuevo test_df con el test_df del paso anterior
- test_df es una porcion tomada al azar de diff_df_union_ti => podria tomar los mismos elementos que test_df del paso anterior (mal)

constanzadieci · 2018-04-17T19:02:46Z

test_df es una porcion tomada al azar de diff_df_union_ti => podria tomar los mismos elementos que test_df del paso anterior (mal) No toma los mismos valores que el paso anterio porque diff_df_union_ti = [ds.pandas_df - [t0,t1..]] (ti, son los tiest_df de las iteraciones anteriores) Lo que esta mal es que el conjunto de entrenamiento queda mas chico. cambio la linea: train_df = diff_df_union_ti.loc[~diff_df_union_ti.index.isin(test_df.index), :] por train_df = ds.pandas_df.loc[~ds.pandas_df.index.isin(test_df.index), :] Paso ejemplo de ejcucion: Iteracion : 0 test Tiempo Temperatura Humedad Viento Juega 11 Nuboso Templado Alta Fuerte YES 9 Lluvioso Templado Normal Suave YES 5 Lluvioso Frio Normal Fuerte NO 7 Soleado Templado Alta Suave NO train Tiempo Temperatura Humedad Viento Juega 0 Soleado Caluroso Alta Suave NO 1 Soleado Caluroso Alta Fuerte NO 2 Nuboso Caluroso Alta Suave YES 3 Lluvioso Templado Alta Suave YES 4 Lluvioso Frio Normal Suave YES 6 Nuboso Frio Normal Fuerte YES 8 Soleado Frio Normal Suave YES 10 Soleado Templado Normal Fuerte YES 12 Nuboso Caluroso Normal Suave YES 13 Lluvioso Templado Alta Fuerte NO Iteracion : 1 test Tiempo Temperatura Humedad Viento Juega 2 Nuboso Caluroso Alta Suave YES 10 Soleado Templado Normal Fuerte YES 13 Lluvioso Templado Alta Fuerte NO 1 Soleado Caluroso Alta Fuerte NO train Tiempo Temperatura Humedad Viento Juega 0 Soleado Caluroso Alta Suave NO 3 Lluvioso Templado Alta Suave YES 4 Lluvioso Frio Normal Suave YES 5 Lluvioso Frio Normal Fuerte NO 6 Nuboso Frio Normal Fuerte YES 7 Soleado Templado Alta Suave NO 8 Soleado Frio Normal Suave YES 9 Lluvioso Templado Normal Suave YES 11 Nuboso Templado Alta Fuerte YES 12 Nuboso Caluroso Normal Suave YES Iteracion : 2 test Tiempo Temperatura Humedad Viento Juega 12 Nuboso Caluroso Normal Suave YES 4 Lluvioso Frio Normal Suave YES 6 Nuboso Frio Normal Fuerte YES 0 Soleado Caluroso Alta Suave NO train Tiempo Temperatura Humedad Viento Juega 1 Soleado Caluroso Alta Fuerte NO 2 Nuboso Caluroso Alta Suave YES 3 Lluvioso Templado Alta Suave YES 5 Lluvioso Frio Normal Fuerte NO 7 Soleado Templado Alta Suave NO 8 Soleado Frio Normal Suave YES 9 Lluvioso Templado Normal Suave YES 10 Soleado Templado Normal Fuerte YES 11 Nuboso Templado Alta Fuerte YES 13 Lluvioso Templado Alta Fuerte NO Iteracion : 3 test Tiempo Temperatura Humedad Viento Juega 8 Soleado Frio Normal Suave YES 3 Lluvioso Templado Alta Suave YES train Tiempo Temperatura Humedad Viento Juega 0 Soleado Caluroso Alta Suave NO 1 Soleado Caluroso Alta Fuerte NO 2 Nuboso Caluroso Alta Suave YES 4 Lluvioso Frio Normal Suave YES 5 Lluvioso Frio Normal Fuerte NO 6 Nuboso Frio Normal Fuerte YES 7 Soleado Templado Alta Suave NO 9 Lluvioso Templado Normal Suave YES 10 Soleado Templado Normal Fuerte YES 11 Nuboso Templado Alta Fuerte YES 12 Nuboso Caluroso Normal Suave YES 13 Lluvioso Templado Alta Fuerte NO El 17 de abril de 2018, 15:22, Bruno Piaggio <[email protected]> escribió:

…

union_ti = pd.DataFrame() n = round(ds.pandas_df.__len__() / k) errors = [0 for i in range(k)] for i in range(k): diff_df_union_ti = ds.pandas_df.loc[~ds.pandas_df.index.isin(union_ti.index), :] test_df = diff_df_union_ti.sample(n=min(n, len(diff_df_union_ti))) union_ti = pd.concat([union_ti, test_df]) train_df = diff_df_union_ti.loc[~diff_df_union_ti.index.isin(test_df.index), :] Este es el razonamiento paso a paso que hice del código <https://github.com/acabreragnz/aa-18/blob/acfce0c451d64c5f28f33135db1708c82e782205/lab2/ej5/src/k_fold_cross_validation.py#L29> : al empezar primer iteracion: union_ti vacio al terminar primer iteracion: diff_df_union_ti es todo el dataset test_df es una porcion tomada al azar (esta bien) union_ti = test_df train_df es todo lo que esta en diff_df_union_ti pero no en test_df (esta bien) al terminar segunda iteracion: union_ti es la union del nuevo test_df con el test_df del paso anterior test_df es una porcion tomada al azar de diff_df_union_ti => podria tomar los mismos elementos que test_df del paso anterior (mal) — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#18>, or mute the thread <https://github.com/notifications/unsubscribe-auth/AFD-IfYTDHW2XhOdoMOYzEOO4rS1jxq0ks5tpjMAgaJpZM4TY0Kf> .

brunopk · 2018-04-17T21:40:37Z

Ahora entendí, con la corrección queda ok 👌 gracias

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

K-Fold isssue #18

K-Fold isssue #18

brunopk commented Apr 17, 2018 •

edited

Loading

constanzadieci commented Apr 17, 2018 via email

brunopk commented Apr 17, 2018

K-Fold isssue #18

K-Fold isssue #18

Comments

brunopk commented Apr 17, 2018 • edited Loading

constanzadieci commented Apr 17, 2018 via email

brunopk commented Apr 17, 2018

brunopk commented Apr 17, 2018 •

edited

Loading