機械學習
機械學習是中國的經濟術語。
世界三大漢語詞典分別是中國大陸的《 漢語大詞典[1]》(共13冊,5.6萬詞條,37萬單詞)、中國台灣的《 中文大辭典 》(共10冊,5萬詞條,40萬單詞)以及日本的《 大漢和辭典 》(共13冊,4.9萬詞條,40萬單詞)。漢字是記錄漢語的文字[2],它已有六千年左右的歷史,是世界上最古老的文字之一。
目錄
名詞解釋
所謂機械學習是一種單純依靠記憶學習材料,而避免去理解其複雜內部和主題推論的學習方法。平時多稱為死記、死背或死記硬背。
由美國心理學家大衛·奧蘇伯爾提出,與有意義學習相對的概念,指符號所代表的新知識與學習者認知結構中已有的知識建立非實質性的和人為的聯繫。如學生僅能記住乘法口訣表,形成機械的聯想,但並不真正理解這些符號所代表的知識。
機械學習模式
機械學習是最簡單的機器學習方法。機械學習就是記憶,即把新的知識存儲起來,供需要時檢索調用,而不需要計算和推理。
機械學習又是最基本的學習過程。任何學習系統都必須記住它們獲取的知識。在機械學習系統中,知識的獲取是以較為穩定和直接的方式進行的,不需要系統進行過多的加工。而對於其它學習系統,需要對各種建議和訓練例子等信息進行加工處理後,才能存儲起來。
當機械學習系統的執行部分解決好問題之後,系統就記住該問題及其解。我們可把學習系統的執行部分抽象地看成某個函數,該函數在得到自變量輸入值(X_1,X_2,\cdots,X_n)之後,計算並輸出函數值(Y_1,Y_2,\cdots,Y_p)。機械學習在存儲器中簡單地記憶存儲對((X_1,X_2,\cdots,Xn),(Y_1,Y_2,\cdots,Y_p))。當需要f(X_1,X_2,\cdots,X_n)時,執行部分就從存儲器中把(Y_1,Y_2,\cdots,Y_p)簡單地檢索出來而不是重新計算它。
Lenat,Hayes Roth,和Klahr等人於1979年關於機械學習提出一種有趣的觀點。他們指出,可以把機械學習看成是數據化簡分級中的第一級。數據化簡與計算機語言編譯類似;其目的是把原始信息變成可執行的信息。在機械學習中我們只記憶計算的輸入輸出,忽略了計算過程,這樣就把計算問題化簡成存取問題。
正像計算問題可以簡化成存取問題一樣,其它的推理過程也可以簡化成較為簡單的任務。例如推導可以簡化成計算。比方說第一次要我們解一個一元二次方程的時候,我們必須使用很長的一段推導才能得出解方程的求根公式。但是一旦有了求根公式,以後再解一元二次方程時,就不必重複以前的推導過程,可以直接使用求根公式計算出根,這樣就把推導問題簡化成計算問題。同樣地,歸納過程可以簡化成推導過程。
例如我們可以在大量病例的基礎上歸納總結出治療的一般規律,形成規則,當遇見一個新病例時,我們就使用規則去處理它,而不必參照以前的眾多病例推斷解決辦法。化簡的目的,主要是為了提高工作效率。
機械學習的主要問題
注意3個重要的問題:存儲組織,穩定性和存儲與計算之間的權衡。
(a) 存儲組織信息。顯然,只有當檢索一個項目的時間比重新計算一個項目的時間短時,機械學習才有意義,檢索的越快,其意義也就越大。因此,採用適當的存儲方式,使檢索速度儘可能地快,是機械學習中的重要問題。在數據結構與數據庫領域,為提高檢索速度,人們研究了許多卓有成效的數據存儲方式,如索引、排序、雜湊等等,在機械學習中我們可以充分利用這些成果來實現我們的要求。
(b) 環境的穩定性與存儲信息的適用性問題。在急劇變化的環境下機械學習策略是不適用的。做為機械學習基礎的一個重要假定是在某一時刻存儲的信息必須適用於後來的情況。然而如果信息變換得特別頻繁,這個假定就被破壞了。
(c) 存儲與計算之間的權衡。因為機械學習的根本目的是改進系統的執行能力,因此對於機械學習來說很重要的一點是它不能降低系統的效率。比方說,如果檢索一個數據比重新計算一個數據所花的時間還要多,那麼機械學習就失去了意義。
這種存儲與計算之間的權衡問題的解決方法有兩種。一種方法是估算一下存儲信息所要花費的存儲空間以及檢索信息時所花費的時間,然後將其代價與重新計算所花的代價比較,再決定存儲信息是否有利。另一種方法是把信息先存儲起來,但為了保證有足夠的檢索速度,限制了存儲信息的量,系統只保留那些最常使用的信息,「忘記」那些不常使用的信息。這種方法也叫「選擇忘卻」技術。
參考文獻
- ↑ 中國漢字博大精深,作為中國人的你知道有多少個嘛?,搜狐,2022-08-14
- ↑ 漢語的發展史,你了解多少:你真的會說漢語嗎?,搜狐,2021-11-12