aiaiask.com©

开花即结果 提问即答案

Python利用PyCharm处理北京二手房数据:数据预处理与可视化
原始问题:

Python利用PyCharm处理北京二手房数据:数据预处理与可视化

要开始,我们得先安装并导入一些必要的库,比如pandas、numpy、matplotlib以及openpyxl。接下来,根据要求进行数据的预处理和可视化工作。

  1. 数据预处理:
import pandas as pd
import numpy as np
import re

# 载入数据
data = pd.read_excel("北京二手房数据.xlsx")

# 从字符串中提取数值信息,并统一信息格式
def extract_number(s):
    return float(re.findall(r"\d+\.?\d*", s)[0])

data["面积"] = data["面积"].apply(extract_number)
data["总价"] = data["总价"].apply(extract_number)

# 查找并处理表格中的重复值
data = data.drop_duplicates()

# 将表格中的面积与总价进行连续数据的离散化
bins = [0, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 950, 1000]
data["面积分箱"] = pd.cut(data["面积"], bins=bins)
data["总价分箱"] = pd.cut(data["总价"], bins=bins)

# 对城区、朝向、区域、优点进行字符数据编码
data["城区编码"] = data["城区"].astype("category").cat.codes
data["朝向编码"] = data["朝向"].astype("category").cat.codes
data["区域编码"] = data["区域"].astype("category").cat.codes
data["优点"] = data["优点"].fillna("其他")
data["优点编码"] = data["优点"].astype("category").cat.codes

# 生成“北京二手房数据预处理.xlsx”
data.to_excel("北京二手房数据预处理.xlsx", index=False)
Python利用PyCharm处理北京二手房数据:数据预处理与可视化
AI / 模型Siliconflow
时间 / DATEJune 26, 2024, 4:02 PM
语言zh-CN
IP / 区域江苏 南京