iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 28
0
自我挑戰組

練習程式系列 第 28

大數據、機器學習 相關名詞

  • 分享至 

  • xImage
  •  

再來了解一些相關名詞:

1 資料倉儲(data warehouse,也稱為企業資料倉儲)
資料倉儲概念

資料倉儲是強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。

利用資料倉儲方式所存放的資料,具有一但存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉儲皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。

一般來說,資料倉儲可由關聯式資料庫,或專為資料倉儲開發的多維度資料庫建立。

有別於一般OLTP系統,資料倉儲的資料模型設計,著重將資料按其意義歸類至相同的主題區(subject area),因此稱為主題導向。

資料一旦確認寫入後是不會被取代或刪除的,即使資料是錯誤的亦同。

2 Apache Hadoop
認識大數據的黃色小象幫手 ––Hadoop

Apache Hadoop是一款支援資料密集型分布式應用程式,並以Apache 2.0許可協定發布的開源軟體框架。

Hadoop框架透明地為應用提供可靠性和資料移動。它實現了名為MapReduce的編程範式:應用程式被分割成許多小部分,而每個部分都能在叢集中的任意節點上執行或重新執行。

Hadoop 不但讓你儲存超過一個伺服器所能容納的超大檔案,還能同時儲存、處理、分析幾千幾萬份這種超大檔案,所以每每提到大數據,便會提到 Hadoop 這套技術。

Hadoop包括兩個最重要的組件。第一個是大規模儲存系統,叫做Hadoop Distributed File System(HDFS)。第二個是一個計算引擎,叫做MapReduce,它能在儲存在HDFS上的數據頂層運行大規模並行程序。

所以我們看到Hadoop包含了存儲和計算兩個組件,而這個MapReduce計算組件其實可以被Spark替換的。Spark是一個基於內存計算的開源的集群計算系統,目的是讓數據分析更加快速。
參考:何必糾結hadoop和spark如何選擇

3 Apache Spark
10分鐘弄懂大數據框架Hadoop和Spark的差異

Apache Spark是一個開源叢集運算框架。相對於Hadoop的MapReduce會在執行完工作後將中介資料存放到磁碟中,Spark使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算。

Spark在記憶體內執行程式的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是執行程式於硬碟時,Spark也能快上10倍速度。Spark允許用戶將資料載入至叢集記憶體,並多次對其進行查詢,非常適合用於機器學習演算法。

4
人工神經網路(Artificial Neural Network,ANN),簡稱神經網路(Neural Network,NN)或類神經網路
機器學習的衰頹興盛:從類神經網路到淺層學習

5 安德森鳶尾花卉數據集(英文:Anderson's Iris data set)
一 150筆資料
二 三種花的品種: setosa、versicolor、virginica
三 四個特徵(feature):
sepal length(花萼長度)
sepal width(花萼寬度)
Petal length(花瓣長度)
Petal width(花瓣寬度)
https://raw.githubusercontent.com/ritchieng/machine-learning-dataschool/master/images/03_iris.png
所以這個iris數據集就是用這四個特徵來判斷屬於setosa或versicolor或virginica

6
[資料分析&機器學習] 第3.4講:支援向量機(Support Vector Machine)介紹

SVM 支援向量機(Support Vector Machine)

學習這位大大的系列文:
R 語言使用者的 Python 學習筆記

整理
1
Tensorflow 2.0 - AttributeError: module 'tensorflow' has no attribute 'Session'

解法:

import tensorflow.compat.v1 as tf

2
tensorflow:AttributeError: 'module' object has no attribute 'mul'
解法:

tf.multiply

3
No module named 'sklearn.cross_validation'解决方法
解法:

from sklearn.model_selection import train_test_split

4
鐵達尼號數據集:
https://www.kaggle.com/tedllh/titanic-train/data#

5
RuntimeError: tf.placeholder() is not compatible with eager execution

解法:

tf.compat.v1.disable_eager_execution()

6
解决 No module named 'tensorflow.examples.tutorials'

先找python路徑 ,在jupyter框框打:

import sys
sys.path

然後到

C:\ProgramData\Anaconda3\Lib\site-packages\tensorflow\examples

把github的https://github.com/tensorflow/tensorflow
tensorflow-master\tensorflow\examples下的東西全部貼過去,重複的略過就好

7
ERROR -- ValueError: Only call softmax_cross_entropy_with_logits with named arguments (labels=..., logits=..., ...)

解法:

tf.nn.softmax_cross_entropy_with_logits(y_conv, y_)
改成
tf.nn.softmax_cross_entropy_with_logits( logits=y_conv, labels=y_)

上一篇
機器學習 與 Python整理
下一篇
python 安德森鳶尾花卉數據集
系列文
練習程式37
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言