MNIST 被喻為深度學習中的Hello World示例,由Yann LeCun等大神組織收集的一個手寫數(shù)字的數(shù)據(jù)集,有60000個訓練集和10000個驗證集,是個非常適合初學者入門的訓練集。這個網(wǎng)站也提供了業(yè)界對這個數(shù)據(jù)集的各種算法的嘗試結(jié)果,也能看出機器學習的算法的演進史,從早期的線性邏輯回歸到K-means,再到兩層神經(jīng)網(wǎng)絡(luò),到多層神經(jīng)網(wǎng)絡(luò),再到最近的卷積神經(jīng)網(wǎng)絡(luò),隨著的算法模型的改善,錯誤率也不斷下降,所以目前這個數(shù)據(jù)集的錯誤率已經(jīng)可以控制在0.2%左右,基本和人類識別的能力相當了。
這篇文章的例子我們會用一個更加有趣點的數(shù)據(jù)集 notMNIST,和MNIST不同的是它是一個各種形態(tài)的字母的數(shù)據(jù)集合,總共有a~j 10個字母組成,字母a相對應(yīng)的一些圖片如下:
在這個例子中,我們會使用TensorFlow和sklearn等庫,對數(shù)據(jù)集進行一系列處理,最終使用邏輯回歸模型來進行機器學習并且預測。