算法檢視原始碼討論檢視歷史
算法是中國科技名詞。
如今,一個擁有燦爛文化的中國,帶着豐富多彩的文化元素[1]屹立在世界東方。而中華文化的典型代表之一便是漢字[2]。
名詞解釋
算法(互聯網術語)一般指推薦算法
推薦算法是計算機專業中的一種算法,通過一些數學算法,推測出用戶可能喜歡的東西,應用推薦算法比較好的地方主要是網絡。所謂推薦算法就是利用用戶的一些行為,通過一些數學算法,推測出用戶可能喜歡的東西。
起源
個性化推薦概念的首次出現是在1995年3月的美國人工智能協會上,由卡耐基梅隆大學的Robert Armstrong等提出了個性化導航系統Web Watcher。同時,斯坦福大學的Marko balabanovic等也推出了LIRA——一個個性化推薦系統。自此之後,個性化推薦的研究開始蓬勃發展。
推薦算法的研究起源於20世紀90年代,由美國明尼蘇達大學GroupLens研究小組最先開始研究,他們想要製作一個名為Movielens的電影推薦系統,從而實現對用戶進行電影的個性化推薦。首先研究小組讓用戶對自己看過的電影進行評分,然後小組對用戶評價的結果進行分析,並預測出用戶對並未看過的電影的興趣度,從而向他們推薦從未看過並可能感興趣的電影。此後,Amazon開始在網站上使用推薦系統,在實際中對用戶的瀏覽購買行為進行分析,嘗試對曾經瀏覽或購買商品的用戶進行個性化推薦。根據 enture Beat的統計,這一舉措將該網站的銷售額提高了35%自此之後,個性化推薦的應用越來越廣泛。
分類
基於內容
基於內容的推薦(Content-based Recommendation)是信息過濾技術的延續與發展,它是建立在項目的內容信息上做出推薦的,而不需要依據用戶對項目的評價意見,更多地需要用機器學習的方法從關於內容的特徵描述的事例中得到用戶的興趣資料。
在基於內容的推薦系統中,項目或對象是通過相關特徵的屬性來定義的,系統基於用戶評價對象的特徵、學習用戶的興趣,考察用戶資料與待預測項目的匹配程度。用戶的資料模型取決於所用的學習方法,常用的有決策樹、神經網絡和基於向量的表示方法等。基於內容的用戶資料需要有用戶的歷史數據,用戶資料模型可能隨着用戶的偏好改變而發生變化。
基於內容的推薦與基於人口統計學的推薦有類似的地方,只不過系統評估的中心轉到了物品本身,使用物品本身的相似度而不是用戶的相似度來進行推薦。
基於內容的推薦算法的優勢在於:對用戶興趣可以很好地建模,並通過對物品屬性維度的增加,獲得更好的推薦精度。而不足之處就在於:①物品的屬性有限,很難有效得到更多數據;②物品相似度的衡量標準只考慮到了物品本身,有一定的片面性;③需要用戶的物品的歷史數據,有冷啟動的問題。
基於協同
基於協同過濾的推薦算法(Collaborative Filtering Recommendation)技術是推薦系統中應用最早和最為成功的技術之一。它一般採用最近鄰技術,利用用戶的歷史喜好信息計算用戶之間的距離,然後利用目標用戶的最近鄰居用戶對商品評價的加權評價值來預測目標用戶對特定商品的喜好程度,從而根據這一喜好程度來對目標用戶進行推薦。
基於協同過濾的推薦算法最大優點是對推薦對象沒有特殊的要求,能處理非結構化的複雜對象,如音樂、電影。
基於協同過濾的推薦算法是基於這樣的假設:為一用戶找到他真正感興趣的內容的好方法是首先找到與此用戶有相似興趣的其他用戶,然後將他們感興趣的內容推薦給此用戶。其基本思想非常易於理解,在日常生活中,人們往往會利用好朋友的推薦來進行一些選擇。基於協同過濾的推薦算法正是把這一思想運用到電子商務推薦系統中來,基於其他用戶對某一內容的評價來向目標用戶進行推薦。
基於協同過濾的推薦系統可以說是從用戶的角度來進行相應推薦的,而且是自動的,即用戶獲得的推薦是系統從購買模式或瀏覽行為等隱式獲得的,不需要用戶努力地找到適合自己興趣的推薦信息,如填寫一些調查表格等。
基於協同過濾的推薦算法具有如下優點:
能夠過濾難以進行機器自動內容分析的信息,如藝術品、音樂等。
共享其他人的經驗,避免了內容分析的不完全和不精確,並且能夠基於一些複雜的,難以表述的概念(如信息質量、個人品位)進行過濾。
有推薦新信息的能力。可以發現內容上完全不相似的信息,用戶對推薦信息的內容事先是預料不到的。這也是基於協同過濾的推薦算法和基於內容的推薦一個較大的差別,基於內容的推薦很多都是用戶本來就熟悉的內容,而基於協同過濾的推薦可以發現用戶潛在的但自己尚未發現的興趣偏好。
能夠有效地使用其他相似用戶的反饋信息,減少用戶的反饋量,加快個性化學習的速度。
基於關聯規則
基於關聯規則的推薦(Association Rule-based Recommendation)是以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零售業中已經得到了成功的應用。
關聯規則就是在一個交易數據庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集y,其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會購買麵包。
算法的第一步關聯規則的發現最為關鍵且最耗時,是算法的瓶頸,但可以離線進行。其次,商品名稱的同義性問題也是關聯規則的一個難點。
基於效用
基於效用的推薦(Utility-based Recommendation)是建立在對用戶使用項目的效用情況上計算的,其核心問題是怎樣為每一個用戶去創建一個效用函數,因此,用戶資料模型很大程度上是由系統所採用的效用函數決定的。
基於效用推薦的好處是它能把非產品的屬性,如提供商的可靠性(Vendor Reliability)和產品的可得性(Product Availability)等考慮到效用計算中。
基於知識
基於知識的推薦(Knowledge-based Recommendation)在某種程度是可以看成是一種推理(Inference)技術,它不是建立在用戶需要和偏好基礎上推薦的。
基於知識的方法因它們所用的功能知識不同而有明顯區別。效用知識(Functional Knowledge)是一種關於一個項目如何滿足某一特定用戶的知識,因此能解釋需要和推薦的關係,所以用戶資料可以是任何能支持推理的知識結構,它可以是用戶已經規範化的查詢,也可以是一個更詳細的用戶需要的表示。
參考文獻
- ↑ 【薦讀】細數中國傳統文化元素 「一二三四五」 ,搜狐,2018-02-11
- ↑ 中華優秀傳統文化——漢字2022-03-30