logisticregression函数,logistic regression损失函数

  logisticregression函数,logistic regression损失函数

  火花示例

  逻辑回归这是一种迭代机器学习算法,旨在寻找在多维特征空间中分隔两组点的最佳超平面。例如,它可以用于将邮件分类为垃圾邮件和非垃圾邮件。因为该算法对同一个数据集重复应用相同的数据处理操作,所以它从跨迭代在随机存取存储中缓存输入数据中获益匪浅。

  val points=spark.textFile(.).地图(parsePoint).缓存()

  var w=Vector.random(D) //当前分离平面

  对于(i - 1到迭代){

  val gradient=points.map(p=

  (1/(1 exp(-p . y *(w dot p . x)))-1)* p . y * p . x

  ).减少(_ _)

  w -=梯度

  }

  println(最终分离平面: w )请注意,每次地图调用时,w都会自动发送到集群。

  下图比较了该火花程序与大数据在80核集群上30 GB数据上的性能,显示了内存缓存的优势:

logisticregression函数,logistic regression损失函数