18赞

ALS模型 - 预测full_uv ^ tv等级非常高

作者：无名有名我无名_593 | 2023-09-07 16:23

如何解决《ALS模型-预测full_u*v^t*v等级非常高》经验，为你挑选了1个好方法。

我正在预测批量训练模型的流程之间的评级.我正在使用此处概述的方法:ALS模型 - 如何生成full_u*v ^ t*v？

! rm -rf ml-1m.zip ml-1m
! wget --quiet http://files.grouplens.org/datasets/movielens/ml-1m.zip
! unzip ml-1m.zip
! mv ml-1m/ratings.dat .

from pyspark.mllib.recommendation import Rating

ratingsRDD = sc.textFile('ratings.dat') \
               .map(lambda l: l.split("::")) \
               .map(lambda p: Rating(
                                  user = int(p[0]), 
                                  product = int(p[1]),
                                  rating = float(p[2]), 
                                  )).cache()

from pyspark.mllib.recommendation import ALS

rank = 50
numIterations = 20
lambdaParam = 0.1
model = ALS.train(ratingsRDD, rank, numIterations, lambdaParam)



然后提取产品功能......

import json
import numpy as np

pf = model.productFeatures()

pf_vals = pf.sortByKey().values().collect()
pf_keys = pf.sortByKey().keys().collect()

Vt = np.matrix(np.asarray(pf_vals))

full_u = np.zeros(len(pf_keys))

def set_rating(pf_keys, full_u, key, val):
    try:
        idx = pf_keys.index(key)
        full_u.itemset(idx, val)
    except:
        pass

set_rating(pf_keys, full_u, 260, 9),   # Star Wars (1977)
set_rating(pf_keys, full_u, 1,   8),   # Toy Story (1995)
set_rating(pf_keys, full_u, 16,  7),   # Casino (1995)
set_rating(pf_keys, full_u, 25,  8),   # Leaving Las Vegas (1995)
set_rating(pf_keys, full_u, 32,  9),   # Twelve Monkeys (a.k.a. 12 Monkeys) (1995)
set_rating(pf_keys, full_u, 335, 4),   # Flintstones, The (1994)
set_rating(pf_keys, full_u, 379, 3),   # Timecop (1994)
set_rating(pf_keys, full_u, 296, 7),   # Pulp Fiction (1994)
set_rating(pf_keys, full_u, 858, 10),  # Godfather, The (1972)
set_rating(pf_keys, full_u, 50,  8)    # Usual Suspects, The (1995)

recommendations = full_u*Vt*Vt.T

top_ten_ratings = list(np.sort(recommendations)[:,-10:].flat)

print("predicted rating value", top_ten_ratings)

top_ten_recommended_product_ids = np.where(recommendations >= np.sort(recommendations)[:,-10:].min())[1]
top_ten_recommended_product_ids = list(np.array(top_ten_recommended_product_ids))

print("predict rating prod_id", top_ten_recommended_product_ids)


然而,预测的评级似乎太高了:

('predicted rating value', [313.67320347694897, 315.30874327316576, 317.1563289268388, 317.45475214423948, 318.19788673744563, 319.93044594688428, 323.92448427140653, 324.12553531632761, 325.41052886977582, 327.12199687047649])
('predict rating prod_id', [49, 287, 309, 558, 744, 802, 1839, 2117, 2698, 3111])


这似乎是不正确的.任何提示赞赏.


1> yoh.lej..：
我认为如果你只关心电影的排名,所提到的方法就会奏效.如果你想得到一个实际的评级,那么在尺寸/缩放方面似乎有些东西.

这里的想法是猜测新用户的潜在表现.通常,对于已经在分解中的用户i,用户i,你有他的潜在表示u_i(第i行model.userFeatures())并且你得到他对给定电影(电影j)的评级,使用model.predict它基本上乘以u_i产品的潜在表示v_j.如果你乘以整个v:,你可以立即获得所有预测的评级u_i*v.

对于新用户,你必须猜测什么是他的潜表示u_new从full_u_new.基本上,您需要50个系数来表示您对每个潜在产品因素的新用户亲和力.为了简单起见,因为它对我的隐式反馈用例来说足够了,我只是使用了点积,基本上将新用户投射到产品潜在因素上:full_u_new*V^t给你50系数,系数是你的新用户看起来像产品潜伏多少因素i.并且它与隐式反馈特别有效.所以,使用点积将会给你,但它不会被缩放,它会解释你所看到的高分.要获得可用的分数,你需要更精确地缩放u_new,我想你可以使用余弦相似性得到它,就像它们[在这里]https://github.com/apache/incubator-predictionio/blob/release/0.10.0/examples/scala-parallel-recommendation/custom-query/src/main/scala/ALSAlgorithm.scala

@ ScottEdwards2000在评论中提到的方法也很有趣,但却有所不同.您确实可以在训练集中寻找最相似的用户.如果有多个,你可以获得平均值.我不认为它会做得太糟糕,但它是一个非常不同的方法,你需要完整的评级矩阵(找到最相似的用户).获得一个亲密的用户肯定应该解决扩展问题.如果你设法使两种方法都有效,你可以比较结果!



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        如何使用lambda将数组中的每个项目相乘？
                    

                    
                                                
                        如何解决《如何使用lambda将数组中的每个项目相乘？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Azure中的Wordpress托管,集成了媒体服务和上传器安全性
                    

                    
                                                
                        如何解决《Azure中的Wordpress托管,集成了媒体服务和上传器安全性》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        此搜索方法中IComparable和IComparable <T>之间的差异
                    

                    
                                                
                        如何解决《此搜索方法中IComparable和IComparable<T>之间的差异》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Android API级别23上访问UserDictionary Content Provider
                    

                    
                                                
                        如何解决《在AndroidAPI级别23上访问UserDictionaryContentProvider》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        清除错误后,TextInputLayout.setError()会留空空格
                    

                    
                                                
                            
                        
                                                
                        如何解决《清除错误后,TextInputLayout.setError()会留空空格》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何循环参数java？
                    

                    
                                                
                        如何解决《如何循环参数java？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        `pip install pyside`冻结在Linux上？
                    

                    
                                                
                        如何解决《`pipinstallpyside`冻结在Linux上？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Python中的方法重载:更多重载
                    

                    
                                                
                        如何解决《Python中的方法重载:更多重载》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Rails:为什么我的服务器将http重定向到https
                    

                    
                                                
                        如何解决《Rails:为什么我的服务器将http重定向到https》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在c ++中使用"this"关键字对性能有影响吗？
                    

                    
                                                
                        如何解决《在c++中使用"this"关键字对性能有影响吗？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        这个AngularJS工厂的例子究竟如何？有些疑惑
                    

                    
                                                
                        如何解决《这个AngularJS工厂的例子究竟如何？有些疑惑》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        GOCR没有使用培训结果
                    

                    
                                                
                        如何解决《GOCR没有使用培训结果》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在Xcode中调整UIStackView的子视图？
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在Xcode中调整UIStackView的子视图？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        可靠地将类型符号(ITypeSymbol)与Roslyn进行比较
                    

                    
                                                
                        如何解决《可靠地将类型符号(ITypeSymbol)与Roslyn进行比较》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        什么是hadoop中的序列文件？
                    

                    
                                                
                        如何解决《什么是hadoop中的序列文件？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        需要有关Flask安全模块的密码散列算法的建议
                    

                    
                                                
                        如何解决《需要有关Flask安全模块的密码散列算法的建议》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何设置pep8 linter接受2个空格缩进？
                    

                    
                                                
                        如何解决《如何设置pep8linter接受2个空格缩进？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        过滤其值小于0的pandas数据帧行
                    

                    
                                                
                        如何解决《过滤其值小于0的pandas数据帧行》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在Ansible中,是否可以根据剧本定义身份验证方法？
                    

                    
                                                
                        如何解决《在Ansible中,是否可以根据剧本定义身份验证方法？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用哈希表在球拍中排序更快
                    

                    
                                                
                        如何解决《使用哈希表在球拍中排序更快》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                无名有名我无名_593            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1设置locationpicker.jquery.js的当前用户位置
                
                                
                    2如何将日期值插入表中
                
                                
                    3退出并返回QML的返回码
                
                                
                    4使用RAML处理Mule流中的多种安全方案的最佳方法是什么？
                
                                
                    5laravel querybuilder如何在其中使用函数
                
                                
                    6如何使用自动增量字符创建自定义列
                
                                
                    7在擦除 - 删除习语中使用UnaryPredicate的否定
                
                                
                    8使用select元素从datatable导出数据会从select元素导出每个选项
                
                                
                    9理解"cat proc/net/udp"
                
                                
                    10使用TypeConverter将字符串转换为字符串数组
                
                                
                    11如何从PHP中的html页面中删除H2和H3标签？
                
                                
                    12转移具有应用内订阅的iOS应用
                
                                
                    13使用jQuery显示JSON数据
                
                                
                    14如何每1分钟在后台运行服务
                
                                
                    15如何用h5py区分HDF5数据集和组？
                
                                
                    16为什么有std :: not1()和std :: not2()而不是一个重载的std :: not_()？
                
                                
                    17如何检查动态数组是否为空？
                
                                
                    18为什么要使用CDN(内容分发网络)？
                
                                
                    19REST API  -  ALPS UI(Swagger UI之类)
                
                                
                    20ImportError:无法导入名称_UNPACK_INT

ALS模型 - 预测full_u*v ^ t*v等级非常高

ALS模型 - 预测full_uv ^ tv等级非常高