【李宏毅老師2021系列】深度學習基本概念簡介

追客 Fredrick Hong
7 min readMar 17, 2022

--

這個系列是在觀看李宏毅老師2021系列的筆記,希望能用更濃縮的方式將內容整理下來。

此篇筆記來自此課程:https://www.youtube.com/watch?v=bHcJCp2Fyxs&t=2699s

Linear Model are too simple

  • 線性的模型可以調整weight去改變function的斜率,或者改變bias去改變function在y軸上的位置,但不管再怎麼改變,function終究是一條直線,這種來自model的限制稱作 model bias
  • 然而實際情況,應該會是更複雜的,以預測觀看人數來說,可能前一天的觀看人數小於某個值,隔天的觀看人數就會成長,但大於某個值,隔天觀看人數就會下降。(非線性的例子:紅線)
圖1

We Need a more flexible Function

  • 紅色的曲線:常數 + 一堆藍色的function(小於某個門檻是某個固定數值,大於某個門檻是某個固定數值)。
  • 這些藍色function 稱作piecewise linear curves。
  • 就算今天想要找的function,是更平滑的 (beyond piecewise linear),我們也能先從平滑的曲線中取一些點出來,當作是piecewise linear curves,點取得越多,也就是藍色function越多,就會越貼近平滑的function。

藍色function (Hard Sigmoid)

  • 這種S形的藍色function叫做sigmoid,公式如下
  • y = c * sigmoid(b+w*x1)
  • 只要改變w, b, c,就能夠製造出不同形狀的sigmoid function。
  • 改變weight會改變斜率 (slopes),改變b會改變左右位置 (shift),改變c會改變高度 (height)。
  • 回到圖2,要找出紅色的function,就是要把1、2、3加起來,因此公式如下 (圖5)

視覺化拆解公式

  • 圖6在解釋sigmoid裡面在做的事情,也就是有 j 個feature,有 i 個 sigmoid function,把它們submension起來的結果以 r 表示,表示法就如下圖。
  • r1, r2, r3都算出來之後,會再通過sigmoid function,得到a1, a2, a3,最後再各自乘上c1, c2, c3,submension後再加上 bias,就得到最終的y。
  • 圖7的下半部是以線性代數、矩陣運算的方式所呈現的表示法。

小結

我們已經完成機器學習的第一步 (function with unknown),上面的例子x 是input feature,而unknown parameters,就是bias (數值)、c、b (矩陣)、w,這些是機器需要學習的參數,把它們全部都flatten後合併在一起稱作 θ。

Define a Loss Function

這邊計算loss的方式跟機器學習也是一樣的。

Loss function = L(θ),去計算 label_y 跟 predict_y 之間的差距。

Optimization

跟機器學習同樣使用gradient descent去找到一組 θ,可以讓loss的值最小,我們叫它 θ。

  • 隨機選一個初始 θ。
  • 計算gradient,必須去計算每一個 θ 和帶入loss function後數值的微分,就會算出一個g (矩陣)
  • 計算完gradient後,讓原本的 θ0 減去 (learning rate乘上gradient),就完成了一次的更新,參數就會變成 θ1。
  • 接著再計算一次 θ1的gredient,再將 θ1更新成 θ2。
  • 直到不想做了,或者找到的gradient是零,或者理想上已經找到loss的最小值 (global minima)。

Batch

  • 在實務上,我們會將training data拆分成batch (隨機拆分),然後先計算b1的gradient,將 $θ$0更新 $θ$1,再計算b2的gradient,將 $θ$1更新成 θ2,以次類推。
  • 專有名詞:每一次的參數更新稱作update,所有batch都做過一次更新稱作1個epoch。
  • Batch Size是個hyperparameter (需要人工設定的參數),另外補充learning rate跟sigmoid要設定多少個都是。

Other Activation Fucntion

ReLU (Rectified Linear Unit)

  • 其實可以視為兩個sigmoid合併在一起 (圖10)。
  • 公式:c*max(0, b+wx)
  • 若 b+wx較大,則輸出 b+wx,若0較大,則輸出0。
  • 圖11是在比較,在預測youtube觀看人數的這個任務上,線性的機器學習跟不同個neuron的深度學習,在training data跟testing data上的loss。

More variety of Model

  • 除了把input通過一層activation function之外,還可以再多做同樣的事情幾次,也就是把神經網路的架構再架得深一些,又或者說是增加hidden layer。
  • 圖13在比較當我們把hidden layer架設得多層一點,對於loss的影響。

Give it a fancy name

  • 上面解釋的一顆一顆的sigmoid,就是neuron (神經元),而由neuron所架構起來的模型,稱為neural network (NN)。
  • 這種模仿人腦的技術,在1980,90年代已經出現過,但當時的名聲被搞壞,老師這邊提到名聲臭到,只要paper上出現nerual network,paper就會被拒絕,因此需要一個新名稱。
  • 每一排的neuron被稱作是hidden layer,當hidden layers很多的時候,就是很deep的nn,而整套技術就被稱作deep learning。

解說方式

老師最後提到,2021的解說方式跟之前不一樣,並且沒有提到反向傳播法,若有興趣可以看前幾年的影片。

這次的解說,從想要有一個更平滑的function作為開頭,開始解說activation function的作用與原理,並回扣到機器學習的三步驟,最後再以專有名詞跟深度學習名詞的由來收尾。

這種由從原因開始再帶到解答的解說方式,讓人看完覺得很踏實。

其他教材

之前看過覺得很生動又有趣的教學影片,很推 3Blue1Brown 的影片,它是以手寫辨識作為例子,用動畫呈現出nerual network的運作方式。

But what is a neural network? | Chapter 1, Deep learning — YouTube
Gradient descent, how neural networks learn | Chapter 2, Deep learning — YouTube
What is backpropagation really doing? | Chapter 3, Deep learning — YouTube
Backpropagation calculus | Chapter 4, Deep learning — YouTube

如果喜歡我的筆記,歡迎給個clap或留下留言!

--

--

追客 Fredrick Hong

畢業後就到在數位廣告業打滾,之前是廣告優化師,目前則是在數據團隊任職。