再來了解一些相關名詞:
1 資料倉儲(data warehouse,也稱為企業資料倉儲)
資料倉儲概念
資料倉儲是強調利用某些特殊資料儲存方式,讓所包含的資料,特別有利於分析處理,以產生有價值的資訊並依此作決策。
利用資料倉儲方式所存放的資料,具有一但存入,便不隨時間而更動的特性,同時存入的資料必定包含時間屬性,通常一個資料倉儲皆會含有大量的歷史性資料,並利用特定分析方式,自其中發掘出特定資訊。
一般來說,資料倉儲可由關聯式資料庫,或專為資料倉儲開發的多維度資料庫建立。
有別於一般OLTP系統,資料倉儲的資料模型設計,著重將資料按其意義歸類至相同的主題區(subject area),因此稱為主題導向。
資料一旦確認寫入後是不會被取代或刪除的,即使資料是錯誤的亦同。
2 Apache Hadoop
認識大數據的黃色小象幫手 ––Hadoop
Apache Hadoop是一款支援資料密集型分布式應用程式,並以Apache 2.0許可協定發布的開源軟體框架。
Hadoop框架透明地為應用提供可靠性和資料移動。它實現了名為MapReduce的編程範式:應用程式被分割成許多小部分,而每個部分都能在叢集中的任意節點上執行或重新執行。
Hadoop 不但讓你儲存超過一個伺服器所能容納的超大檔案,還能同時儲存、處理、分析幾千幾萬份這種超大檔案,所以每每提到大數據,便會提到 Hadoop 這套技術。
Hadoop包括兩個最重要的組件。第一個是大規模儲存系統,叫做Hadoop Distributed File System(HDFS)。第二個是一個計算引擎,叫做MapReduce,它能在儲存在HDFS上的數據頂層運行大規模並行程序。
所以我們看到Hadoop包含了存儲和計算兩個組件,而這個MapReduce計算組件其實可以被Spark替換的。Spark是一個基於內存計算的開源的集群計算系統,目的是讓數據分析更加快速。
參考:何必糾結hadoop和spark如何選擇
3 Apache Spark
10分鐘弄懂大數據框架Hadoop和Spark的差異
Apache Spark是一個開源叢集運算框架。相對於Hadoop的MapReduce會在執行完工作後將中介資料存放到磁碟中,Spark使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算。
Spark在記憶體內執行程式的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是執行程式於硬碟時,Spark也能快上10倍速度。Spark允許用戶將資料載入至叢集記憶體,並多次對其進行查詢,非常適合用於機器學習演算法。
4
人工神經網路(Artificial Neural Network,ANN),簡稱神經網路(Neural Network,NN)或類神經網路
機器學習的衰頹興盛:從類神經網路到淺層學習
5 安德森鳶尾花卉數據集(英文:Anderson's Iris data set)
一 150筆資料
二 三種花的品種: setosa、versicolor、virginica
三 四個特徵(feature):
sepal length(花萼長度)
sepal width(花萼寬度)
Petal length(花瓣長度)
Petal width(花瓣寬度)
所以這個iris數據集就是用這四個特徵來判斷屬於setosa或versicolor或virginica
6
[資料分析&機器學習] 第3.4講:支援向量機(Support Vector Machine)介紹
SVM 支援向量機(Support Vector Machine)
學習這位大大的系列文:
R 語言使用者的 Python 學習筆記
整理
1
Tensorflow 2.0 - AttributeError: module 'tensorflow' has no attribute 'Session'
解法:
import tensorflow.compat.v1 as tf
2
tensorflow:AttributeError: 'module' object has no attribute 'mul'
解法:
tf.multiply
3
No module named 'sklearn.cross_validation'解决方法
解法:
from sklearn.model_selection import train_test_split
4
鐵達尼號數據集:
https://www.kaggle.com/tedllh/titanic-train/data#
5
RuntimeError: tf.placeholder() is not compatible with eager execution
解法:
tf.compat.v1.disable_eager_execution()
6
解决 No module named 'tensorflow.examples.tutorials'
先找python路徑 ,在jupyter框框打:
import sys
sys.path
然後到
C:\ProgramData\Anaconda3\Lib\site-packages\tensorflow\examples
把github的https://github.com/tensorflow/tensorflow
tensorflow-master\tensorflow\examples下的東西全部貼過去,重複的略過就好
解法:
tf.nn.softmax_cross_entropy_with_logits(y_conv, y_)
改成
tf.nn.softmax_cross_entropy_with_logits( logits=y_conv, labels=y_)