Add summary

Add results
Complete missing values in columns with less data
2021-01-12 23:00:19 +01:00 · 2021-01-01 23:53:40 +01:00 · 2021-01-01 23:52:43 +01:00 · 2021-01-01 23:37:41 +01:00 · 2021-01-01 22:26:59 +01:00 · 2021-01-01 21:54:28 +01:00
9 changed files with 1291 additions and 43 deletions
--- a/data/results.csv
+++ b/data/results.csv
--- a/default.nix
+++ b/default.nix
@@ -1,5 +0,0 @@
 { pkgs ? import <nixpkgs> { } }:
 with pkgs;
 poetry2nix.mkPoetryApplication { projectDir = ./.; }
--- a/docs/Summary.org
+++ b/docs/Summary.org
@@ -1,7 +1,7 @@
 #+TITLE: Práctica 3
 #+SUBTITLE: Inteligencia de Negocio
 #+AUTHOR: Amin Kasrou Aouam
-#+DATE: 2021-01-01
+#+DATE: 2021-01-12
 #+PANDOC_OPTIONS: template:~/.pandoc/templates/eisvogel.latex
 #+PANDOC_OPTIONS: listings:t
 #+PANDOC_OPTIONS: toc:t
@@ -18,9 +18,103 @@ En esta práctica, resolveremos un problema de clasificación multiclase, en con
 ** Preprocesamiento de datos
 *** Valores nulos
 Nuestro /dataset/ contiene bastantes valores nulos, optamos por estrategias diferentes según las columnas:
 - Eliminación: tipo marchas, descuento, ciudad
 - Imputación: asientos, motor cc, potencia
 El criterio que seleccionamos es el número de instancias nulas, en el caso de que sean muchas optamos por imputar, para mantener un número adecuado de datos.
 La implementación se encuentra en la siguiente función:
 #+begin_src python
 def process_null_values(df_list):
    drop_columns = ["tipo_marchas", "descuento", "ciudad"]
    fill_columns = ["asientos", "motor_cc", "potencia"]
    for df in df_list:
        for column in fill_columns:
            if column == "asientos":
                df[column].fillna(value=df[column].median(), inplace=True)
            else:
                df[column].fillna(
                    value=df[column].str.extract("(\d+)").mean(), inplace=True
                )
        df.drop(columns=drop_columns, inplace=True)
        df.dropna(inplace=True)
    return df_list
 #+end_src
 *** Valores no numéricos
 Ciertas columnas contienen valores alfanúmericos, aunque se nos proporcionan distintos archivos CSV para realizar un /mapping/. En este caso, utilizamos un *LabelEncoder*, y como entrada le damos el CSV correspondiente.
 Es primordial usar el mismo /LabelEncoder/ para los datos de entrenamiento como de test. La implementación se encuentra en la siguiente función:
 #+begin_src python
 def encode_columns(df_list):
    label_encoder = LabelEncoder()
    files = [
        "ao",
        "asientos",
        "combustible",
        "consumo",
        "kilometros",
        "mano",
        "motor_cc",
        "nombre",
        "potencia",
    ]
    for data in files:
        for df in df_list:
            label = label_encoder.fit(read_csv("data/" + data + ".csv", squeeze=True))
            if data == "ao":
                df["año"] = label.transform(df["año"])
            else:
                df[data] = label.transform(df[data])
    return df_list
 #+end_src
 *** Balanceo de clases
 Observamos que la mayoría de coches son de la categoría de precio 3, lo cual no es idóneo para entrenar un modelo de inteligencia artificial.
 Debemos realizar un balanceo de las clases, en este caso optamos por usar el modelo *SMOTEEEN*, que combina un /over-sampling/ mediante *SMOTE* y una limpieza gracias a /Edited Nearest Neighbours (ENN)/.
 La implementación se encuentra en esta función:
 #+begin_src python
 def balance_training_data(df):
    smote_enn = SMOTEENN(random_state=42)
    data, target = split_data_target(df=df, dataset="data")
    balanced_data, balanced_target = smote_enn.fit_resample(data, target)
    balanced_data_df = DataFrame(
        balanced_data, columns=df.columns.difference(["precio_cat"])
    )
    balanced_target_df = DataFrame(balanced_target, columns=["precio_cat"])
    return balanced_data_df, balanced_target_df
 #+end_src
 ** Elección de algoritmo
-** Configuración del algoritmo
+
 Elegimos el algoritmo *GradientBoostingClassifier*, que pertenece a los algoritmos de /ensemble/. Éstos combinan las predicciones de varios clasificadores, con el objetivo de mejorar la generalización y la robustez de las predicciones.
 En particular, pertenece a la familia de /boosting methods/, cuya característica es que los clasificadores se crean de forma secuencial, y uno de ellos trata de reducir el sesgo de los demás.
 ** Resultados obtenidos
 Al ejecutar el programa en local obtenemos los siguientes resultados:
 #+CAPTION: Resultados de ejecución
 [[./assets/F1.png]]
 Desafortunadamente, en la plataforma Kaggle obtenemos unos resultados pésimos:
 #+CAPTION: Resultados de Kaggle
 [[./assets/F2.png]]
 ** Análisis de resultados
 Debido a la discrepancia entre los resultados de la ejecución en local, y de la plataforma Kaggle, intuimos que debe de haber un problema en el preprocesamiento de datos.
 También es posible que el modelo no sea óptimo para la tarea, aunque no justificaría un rendimiento tan bajo, puede contribuir a ello.
--- a/docs/Summary.pdf
+++ b/docs/Summary.pdf
--- a/docs/assets/F1.png
+++ b/docs/assets/F1.png
--- a/docs/assets/F2.png
+++ b/docs/assets/F2.png
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -7,14 +7,11 @@ authors = ["coolneng <akasroua@gmail.com>"]
 [tool.poetry.dependencies]
 python = "^3.8"
 scikit-learn = "^0.24.0"
 pandas = "^1.2.0"
 imbalanced-learn = "^0.7.0"
 numpy = "^1.19.4"
 [tool.poetry.dev-dependencies]
 [build-system]
 requires = ["poetry-core>=1.0.0"]
 build-backend = "poetry.core.masonry.api"
 [tool.poetry.scripts]
 competition = "processing:main"
--- a/shell.nix
+++ b/shell.nix
@@ -2,4 +2,4 @@
 with pkgs;
-mkShell { buildInputs = [ python38 poetry ]; }
+mkShell { buildInputs = [ python38 python38Packages.pandas poetry ]; }
--- a/src/preprocessing.py
+++ b/src/preprocessing.py
@@ -1,7 +1,7 @@
 from pandas import DataFrame, read_csv
 from sklearn.preprocessing import LabelEncoder
 from sklearn.model_selection import KFold
-from imblearn.combine import SMOTETomek
+from imblearn.combine import SMOTEENN
 def construct_dataframes(train, test):
@@ -19,40 +19,41 @@ def rename_columns(df_list) -> DataFrame:
    return df_list
-def drop_null_values(df_list):
+def process_null_values(df_list):
    drop_columns = ["tipo_marchas", "descuento", "ciudad"]
    fill_columns = ["asientos", "motor_cc", "potencia"]
    for df in df_list:
        for column in fill_columns:
            if column == "asientos":
                df[column].fillna(value=df[column].median(), inplace=True)
            else:
                df[column].fillna(
                    value=df[column].str.extract("(\d+)").mean(), inplace=True
                )
        df.drop(columns=drop_columns, inplace=True)
        df.dropna(inplace=True)
        df.drop(columns="tipo_marchas", inplace=True)
        df["descuento"].fillna(0)
    return df_list
 def trim_column_names(df_list) -> DataFrame:
    columns = ["consumo", "motor_CC", "potencia"]
    for df in df_list:
        for col in columns:
            df[col] = df[col].str.replace(pat="[^.0-9]", repl="").astype(float)
    return df_list
 def encode_columns(df_list):
    label_encoder = LabelEncoder()
    files = [
-        "ao"
+        "ao",
-        "asientos"
+        "asientos",
-        "ciudad"
+        "combustible",
-        "combustible"
+        "consumo",
-        "consumo"
+        "kilometros",
-        "descuento"
+        "mano",
-        "kilometros"
+        "motor_cc",
-        "mano"
+        "nombre",
-        "motor_cc"
+        "potencia",
        "nombre"
        "potencia"
    ]
    for data in files:
        for df in df_list:
            label = label_encoder.fit(read_csv("data/" + data + ".csv", squeeze=True))
            if data == "ao":
                df["año"] = label.transform(df["año"])
            else:
                df[data] = label.transform(df[data])
    return df_list
@@ -69,11 +70,13 @@ def split_data_target(df, dataset):
 def balance_training_data(df):
-    smote_tomek = SMOTETomek(random_state=42)
+    smote_enn = SMOTEENN(random_state=42)
    data, target = split_data_target(df=df, dataset="data")
-    balanced_data, balanced_target = smote_tomek.fit_resample(data, target)
+    balanced_data, balanced_target = smote_enn.fit_resample(data, target)
-    balanced_data_df = DataFrame(balanced_data, columns=data.columns)
+    balanced_data_df = DataFrame(
-    balanced_target_df = DataFrame(balanced_target, columns=target.columns)
+        balanced_data, columns=df.columns.difference(["precio_cat"])
    )
    balanced_target_df = DataFrame(balanced_target, columns=["precio_cat"])
    return balanced_data_df, balanced_target_df
@@ -85,9 +88,8 @@ def split_k_sets(df):
 def parse_data(train, test):
    df_list = construct_dataframes(train=train, test=test)
    renamed_df_list = rename_columns(df_list)
-    processed_df_list = drop_null_values(renamed_df_list)
+    processed_df_list = process_null_values(renamed_df_list)
-    numeric_df_list = trim_column_names(processed_df_list)
+    encoded_df_list = encode_columns(processed_df_list)
    encoded_df_list = encode_columns(numeric_df_list)
    train_data, train_target = balance_training_data(encoded_df_list[0])
    test_data, test_ids = split_data_target(encoded_df_list[1], dataset="test")
    return train_data, train_target, test_data, test_ids
Author	SHA1	Message	Date
coolneng	cdc769fd33	Add summary	2021-01-12 23:00:19 +01:00
coolneng	8fc55d5e2f	Add results	2021-01-01 23:53:40 +01:00
coolneng	3b08cb73f5	Complete missing values in columns with less data	2021-01-01 23:52:43 +01:00
coolneng	9a8944cb5d	Replace SMOTETomek with SMOTEENN	2021-01-01 23:37:41 +01:00
coolneng	29fd2a8436	Remove ciudad from columns	2021-01-01 22:26:59 +01:00
coolneng	0471cb0ab8	Add pandas to nix-shell instead of poetry	2021-01-01 21:54:28 +01:00
coolneng	e05ccdabb9	Remove string trimming function	2021-01-01 21:54:05 +01:00
`@@ -2,4 +2,4 @@`

	`with pkgs;`	`with pkgs;`

	`mkShell { buildInputs = [ python38 poetry ]; }`	`mkShell { buildInputs = [ python38 python38Packages.pandas poetry ]; }`