最近一直在写一篇关于如何使用时间信息的论文,准备投4月份的WI,今天将论文中的一些结果加入到以前的预测器集合中,RMSE从0.8770降到了0.8761。以前的预测器集合中已经有了很多考虑时间信息的预测器,不过这个这个预测器效果是最好的。
根据我的估计,时间信息对最终结果的影响大概在0.007 - 0.01之间,在我的论文中将会阐述这个结果的由来。
万物皆有时
2 年前
2009/02/24
SVD模型 d = 250,学习速率0.0055,正则化参数0.002,RMSE = 0.904
今天用一种新的方法计算item-based算法中的相关系数,只需要3个小时(包含读取文件的时间)。
邻域数为30,得到RMSE = 0.9416
邻域数为100,RMSE = 0.9574
邻域数为20,RMSE = 0.9394
今天利用模型融合的方法,融合了SVD和item-based KNN两种方法,得到 RMSE = 0.9025
调整参数,alpha = 0.04 beta = 0.5 RMSE = 0.9012
alpha = 0.04 beta = 0.9 RMSE = 0.9013
item-based 10NN + SVD250 RMSE = 0.9002
今天发现我在计算probe数据集的RMSE时忘记开根号了,低级错误啊。我一直困惑为什么probe的RMSE在0.8左右,而quiz的确大于0.9,原来是根号的缘故.0.9 * 0.9 = 0.81,呵呵
今天修改了FLC模型,
item-based 10NN + SVD250 RMSE =0.8994
简单的线性回归 9个模型融合 RMSE = 0.8989
FCL RMSE = 0.8974 这说明FLC模型还是比线性回归融合的更好的。
现在正在计算NSVD模型,明天也加入融合
今天加入了NSVD模型,并采用FLC融合,RMSE = 0.8965
下一阶段将考虑时间因素和电影标题