Python底层实现KNN

今天给大家带来的是关于Python机器学习的相关知识,文章围绕着Python底层实现KNN展开,文中有非常详细的解释及代码示例,需要的朋友可以参考下

一、导入数据

借助python自带的pandas库导入数据,很简单。用的数据是下载到本地的红酒集。

代码如下(示例):

import pandas as pd
def read_xlsx(csv_path):
   data = pd.read_csv(csv_path)
   print(data)
   return data

二、归一化

KNN算法中将用到距离,因此归一化是一个重要步骤,可以消除数据的量纲。我用了归一化,消除量纲也可以用标准化,但是作为新手,我觉得归一化比较简单。

其中最大最小值的计算用到了python中的numpy库,pandas导入的数据是DateFrame形式的,np.array()用来将DateFrame形式转化为可以用numpy计算的ndarray形式。

代码如下(示例):

import numpy as np
def MinMaxScaler(data):
   col = data.shape[1]
   for i in range(0, col-1):
       arr = data.iloc[:, i]
       arr = np.array(arr) #将DataFrame形式转化为ndarray形式,方便后续用numpy计算
       min = np.min(arr)
       max = np.max(arr)
       arr = (arr-min)/(max-min)
       data.iloc[:, i] = arr
   return data

三、分训练集和测试集

先将数据值和标签值分别用x和y划分开,设置随机数种子random_state,若不设置,则每次运行的结果会不相同。test_size表示测试集比例。

def train_test_split(data, test_size=0.2, random_state=None):
   col = data.shape[1]
   x = data.iloc[:, 0:col-1]
   y = data.iloc[:, -1]
   x = np.array(x)
   y = np.array(y)
   # 设置随机种子,当随机种子非空时,将锁定随机数
   if random_state:
       np.random.seed(random_state)
       # 将样本集的索引值进行随机打乱
       # permutation随机生成0-len(data)随机序列
   shuffle_indexs = np.random.permutation(len(x))
   # 提取位于样本集中20%的那个索引值
   test_size = int(len(x) * test_size)
   # 将随机打乱的20%的索引值赋值给测试索引
   test_indexs = shuffle_indexs[:test_size]
   # 将随机打乱的80%的索引值赋值给训练索引
   train_indexs = shuffle_indexs[test_size:]
   # 根据索引提取训练集和测试集
   x_train = x[train_indexs]
   y_train = y[train_indexs]
   x_test = x[test_indexs]
   y_test = y[test_indexs]
   # 将切分好的数据集返回出去
   # print(y_train)
   return x_train, x_test, y_train, y_test

四、计算距离

此处用到欧氏距离,pow()函数用来计算幂次方。length指属性值数量,在计算最近邻时用到。

def CountDistance(train,test,length):
   distance = 0
   for x in range(length):
       distance += pow(test[x] - train[x], 2)**0.5
   return distance

五、选择最近邻

计算测试集中的一条数据和训练集中的每一条数据的距离,选择距离最近的k个,以少数服从多数原则得出标签值。其中argsort返回的是数值从小到大的索引值,为了找到对应的标签值。

tip:用numpy计算众数的方法

import numpy as np
#bincount():统计非负整数的个数,不能统计浮点数
counts = np.bincount(nums)
#返回众数
np.argmax(counts)

少数服从多数原则,计算众数,返回标签值。

def getNeighbor(x_train,test,y_train,k):
   distance = []
   #测试集的维度
   length = x_train.shape[1]
   #测试集合所有训练集的距离
   for x in range(x_train.shape[0]):
       dist = CountDistance(test, x_train[x], length)
       distance.append(dist)
   distance = np.array(distance)
   #排序
   distanceSort = distance.argsort()
   # distance.sort(key= operator.itemgetter(1))
   # print(len(distance))
   # print(distanceSort[0])
   neighbors =[]
   for x in range(k):
       labels = y_train[distanceSort[x]]
       neighbors.append(labels)
       # print(labels)
   counts = np.bincount(neighbors)
   label = np.argmax(counts)
   # print(label)
   return label

调用函数时:

getNeighbor(x_train,x_test[0],y_train,3)

六、计算准确率

用以上KNN算法预测测试集中每一条数据的标签值,存入result数组,将预测结果与真实值比较,计算预测正确的个数与总体个数的比值,即为准确率。

def getAccuracy(x_test,x_train,y_train,y_test):
   result = []
   k = 3
   # arr_label = getNeighbor(x_train, x_test[0], y_train, k)
   for x in range(len(x_test)):
       arr_label = getNeighbor(x_train, x_test[x], y_train, k)
       result.append(arr_label)
   correct = 0
   for x in range(len(y_test)):
       if result[x] == y_test[x]:
          correct += 1
   # print(correct)
   accuracy = (correct / float(len(y_test))) * 100.0
   print("Accuracy:", accuracy, "%")
   return accuracy

总结

KNN算是机器学习中最简单的算法,实现起来相对简单,到此这篇关于Python机器学习之底层实现KNN的文章就介绍到这了。

文章来源网络,作者:运维,如若转载,请注明出处:https://shuyeidc.com/wp/219680.html<

(0)
运维的头像运维
上一篇2025-04-14 05:34
下一篇 2025-04-14 05:36

相关推荐

  • 个人主题怎么制作?

    制作个人主题是一个将个人风格、兴趣或专业领域转化为视觉化或结构化内容的过程,无论是用于个人博客、作品集、社交媒体账号还是品牌形象,核心都是围绕“个人特色”展开,以下从定位、内容规划、视觉设计、技术实现四个维度,详细拆解制作个人主题的完整流程,明确主题定位:找到个人特色的核心主题定位是所有工作的起点,需要先回答……

    2025-11-20
    0
  • 社群营销管理关键是什么?

    社群营销的核心在于通过建立有温度、有价值、有归属感的社群,实现用户留存、转化和品牌传播,其管理需贯穿“目标定位-内容运营-用户互动-数据驱动-风险控制”全流程,以下从五个维度展开详细说明:明确社群定位与目标社群管理的首要任务是精准定位,需明确社群的核心价值(如行业交流、产品使用指导、兴趣分享等)、目标用户画像……

    2025-11-20
    0
  • 香港公司网站备案需要什么材料?

    香港公司进行网站备案是一个涉及多部门协调、流程相对严谨的过程,尤其需兼顾中国内地与香港两地的监管要求,由于香港公司注册地与中国内地不同,其网站若主要服务内地用户或使用内地服务器,需根据服务器位置、网站内容性质等,选择对应的备案路径(如工信部ICP备案或公安备案),以下从备案主体资格、流程步骤、材料准备、注意事项……

    2025-11-20
    0
  • 如何企业上云推广

    企业上云已成为数字化转型的核心战略,但推广过程中需结合行业特性、企业痛点与市场需求,构建系统性、多维度的推广体系,以下从市场定位、策略设计、执行落地及效果优化四个维度,详细拆解企业上云推广的实践路径,精准定位:明确目标企业与核心价值企业上云并非“一刀切”的方案,需先锁定目标客户群体,提炼差异化价值主张,客户分层……

    2025-11-20
    0
  • PS设计搜索框的实用技巧有哪些?

    在PS中设计一个美观且功能性的搜索框需要结合创意构思、视觉设计和用户体验考量,以下从设计思路、制作步骤、细节优化及交互预览等方面详细说明,帮助打造符合需求的搜索框,设计前的规划明确使用场景:根据网站或APP的整体风格确定搜索框的调性,例如极简风适合细线条和纯色,科技感适合渐变和发光效果,电商类则可能需要突出搜索……

    2025-11-20
    0

发表回复

您的邮箱地址不会被公开。必填项已用 * 标注