logisticregression函数,logistic regression损失函数
火花示例
逻辑回归这是一种迭代机器学习算法,旨在寻找在多维特征空间中分隔两组点的最佳超平面。例如,它可以用于将邮件分类为垃圾邮件和非垃圾邮件。因为该算法对同一个数据集重复应用相同的数据处理操作,所以它从跨迭代在随机存取存储中缓存输入数据中获益匪浅。
val points=spark.textFile(.).地图(parsePoint).缓存()
var w=Vector.random(D) //当前分离平面
对于(i - 1到迭代){
val gradient=points.map(p=
(1/(1 exp(-p . y *(w dot p . x)))-1)* p . y * p . x
).减少(_ _)
w -=梯度
}
println(最终分离平面: w )请注意,每次地图调用时,w都会自动发送到集群。
下图比较了该火花程序与大数据在80核集群上30 GB数据上的性能,显示了内存缓存的优势: