Generation

generate functionWed, 15 Jan 2025

reemplazar variables numericas por categoricas de una columna de un dataframe

Puedes utilizar la función `pd.cut()` o `pd.qcut()` de pandas para crear categorías en una columna numérica. Sin embargo, si deseas reemplazar las variables numéricas por categorías de una columna existente, puedes utilizar la función `pd.cut()` con la columna original como entrada. Aquí te muestro un ejemplo: ```python import pandas as pd import numpy as np # Crear un DataFrame con una columna numérica data = { 'edad': [25, 30, 35, 40, 45, 50, 55, 60, 65, 70] } df = pd.DataFrame(data) # Reemplazar la columna numérica por categorías bins = [0, 30, 40, 50, 60, np.inf] # Definir los límites de las categorías labels = ['Joven', 'Adulto', 'Maduro', 'Anciano'] # Definir los nombres de las categorías df['edad_categoria'] = pd.cut(df['edad'], bins=bins, labels=labels, include_lowest=True) print(df) ``` En este ejemplo, la columna `edad` se reemplaza por la columna `edad_categoria`, que tiene las siguientes categorías: - Joven: 0-30 años - Adulto: 30-40 años - Maduro: 40-50 años - Anciano: 50-60 años y más Si deseas utilizar la función `pd.qcut()` en lugar de `pd.cut()`, debes definir el número de categorías en lugar de los límites de las categorías. ```python df['edad_categoria'] = pd.qcut(df['edad'], q=4, labels=labels, duplicates='drop') ``` En este caso, la columna `edad` se reemplaza por la columna `edad_categoria`, que tiene 4 categorías con aproximadamente la misma cantidad de elementos en cada una. Recuerda que la función `pd.cut()` y `pd.qcut()` pueden ser utilizadas para crear categorías en cualquier columna numérica de un DataFrame.

Questions about programming?Chat with your personal AI assistant