万博manbetx官网

您当前的位置:万博manbetx官网 > 行业动态 >
京东JData算法大赛-高潜用户购买意向预测(github源

  原标题:京东JData算法大赛-高潜用户购买意向预测(github源码)

  这是一位热心的参赛者提供的一份入门程序,涵盖了数据清洗、数据(统计)分析、特征抽取、搭建模型、模型评估,这些机器学习通用的完整流程,对于初学者来说可以作为参考。

  type1.浏览(指浏览商品详情页); 2.加入购物车;3.购物车删除;4.下单;5.关注;6.点击

  参赛者需要使用京东多个品类下商品的历史销售数据,构建算法模型,预测用户在未来5天内,对某个目标品类下商品的购买意向。对于训练集中出现的每一个用户,参赛者的模型需要预测该用户在未来5天内是否购买目标品类下的商品以及所购买商品的SKU_ID。评测算法将针对参赛者提交的预测结果,计算加权得分。

  这里对这位作者的程序进行一下简单解析,可供初学者参考,因为是自己的理解,可能有不当之处,欢迎大家批评指出。

  1、生成缺失的三个文件,这一步的目的,是把文件中的数据按照商品和用户两个维度进行聚合

  执行时间较长,但完成后,可以在data/目录下看到新生成的三个文件,注意检验数据条数是否一致

  进入到我们下载上面程序的目录,在这个目录下启动jupyter notebook:

  查看data_cleaning.ipynb,这里面有原作者的详细描述,介绍了一种数据清洗方法,大家可以在这里改为自己的清洗策略

  3、高潜用户行为分析,查看explore_potential_user.ipynb即可,这里是原作者对高潜用户的一些定义,大家可以根据自己的理解修改或调整阈值

  意义:这里标签的定义方式为,如果用户对某个商品,有从浏览,到最终购买的行为链条,则可以说明用户对该商品有购买意向;否则说明没有。

  当然,上述标签只是原作者的一种定义方式,可能并不符合我们的设想,我们可以针对这里进行改进。例如,多次浏览同一商品,有关注,或加入购物车行为都可以认为是有意向,只是强弱不同,这样,可以构造特征集合,并使用逻辑回归进行分类。

  1、商品候选集确认 - 用户&相关商品,不应该是整个商品集;可能使用到关联分析,协同过滤

  用户行为数据,提供的JData_Action_201602.csv 中的user_id是浮点型,都带了个.0,直接跟JData_User.csv关联稍有麻烦,当然主要是看着不爽,所以先把几个action文件的数据规范化

  原始数据中,用户的行为是每行一条数据,无法形成行为序列,所以这里加一步中间数据的处理,便于分析用户的商品浏览到购买的全流程行为。给的文件字段说明,是user_id,sku_id,time,model_id,type,cate,brand 七个字段,但解析的过程中发现,有不少记录按照逗号分割后,是6个,例如:

  追查后,发现是第一步处理时导致部分空值丢失。。所以重写编写了脚本,这里一并完成user_id的处理在脚本中实现。

  初步的目标,就是从有非购买行为,且有购买行为的用户中,分析出其中隐藏的规律,并利用这个规律,对其他有行为的用户进行购买行为的预测

  1、商品候选集确认 - 用户&相关商品,不应该是整个商品集;可能使用到关联分析,协同过滤

  用户行为数据,提供的JData_Action_201602.csv 中的user_id是浮点型,都带了个.0,直接跟JData_User.csv关联稍有麻烦,当然主要是看着不爽,所以先把几个action文件的数据规范化

  原始数据中,用户的行为是每行一条数据,无法形成行为序列,所以这里加一步中间数据的处理,便于分析用户的商品浏览到购买的全流程行为。给的文件字段说明,是user_id,sku_id,time,model_id,type,cate,brand 七个字段,但解析的过程中发现,有不少记录按照逗号分割后,是6个,例如:

  追查后,发现是第一步处理时导致部分空值丢失。。所以重写编写了脚本,这里一并完成user_id的处理在脚本中实现。

  初步的目标,就是从有非购买行为,且有购买行为的用户中,分析出其中隐藏的规律,并利用这个规律,对其他有行为的用户进行购买行为的预测。返回搜狐,查看更多



相关阅读:万博manbetx官网