Day-01-序幕

第 11 屆 iThome 鐵人賽

DAY 1

AI & Data

人工智慧 X 自然語言處理 X 資料科學系列第 1 篇

11th鐵人賽

肯德基爺爺

2019-09-02 23:18:01

1145 瀏覽

分享至

本篇為作者在IT邦幫忙的處女秀文章，還來不及編寫一篇自我介紹的文章就參賽了，真是有些害羞。

作者參賽目的是想整理自己在博士班所做那些零散的Side Project，有些是接案，也些是老師交代的任務雜事，也有些是朋友們~~不想做~~做不出來請我幫忙的問題，如腦波辨識、移動機器人、藝術品辨識、藥局對話機器人、空氣品質預測、房地產預測...等。慶幸，這些看似沒相關的項目，還能湊成一篇主題參賽本屆的鐵人賽，科科。

以下簡略介紹本系列文章的三大主軸：

人工智慧
Artificial Intelligence(AI)，定義為以「人工」編寫的電腦程式，模擬出人類的「智慧」行為。然而，要使電腦能「了解」及「學習」我們的語言或認知是需要大量的「訓練」（Training），且必須藉由「高質量」的資料作為訓練輸入！因此資料科學也是相當重要的一門學問。
而目前人工智慧應用在許多領域如是推薦系統、金融科技、智慧下棋、數位人文、空污預報、自動駕駛、機器人學、教育科技、智慧城市等各式各樣的領域，且將來勢必應用在更多領域。

自然語言處理
Nature language processing(NLP），是一門研究計算機處理人類語言的技術，其領域包括：

語義分析：Semantic Analysis的目標是通過建立有效的模型和系統，對於給定的句子，進行分詞、詞性標記、命名實體識別和鏈接、句法分析、語義角色識別和多義詞消歧，從而實現理解整個文字表達的真實語義。
信息抽取：Information Extraction，信息抽取是為從文本中選擇出的信息創建一個結構化的表示形式如，時間、地點、人物、事件、原因、結果、數字、日期、貨幣、專有名詞等等，然後將轉換後的結構化、半結構化的信息存儲在資料庫裡用戶查詢或進一步的分析使用。
本挖掘：文本挖掘(Text Mining)是一個從非結構化文本信息中獲取用戶感興趣或者有用的模式的過程。主要目的是從非結構化文本文檔中提取有趣的、重要的模式和知識。包括文本聚類、分類、信息抽取、摘要、情感分析以及對挖掘的信息和知識的可視化、交互式的表達界面，可以看成是基於資料庫的數據挖掘或知識發現的擴展。
機器翻譯：把輸入的源語言文本通過自動翻譯獲得另外一種語言的文本。根據輸入媒介不同，可以細分為文本翻譯、語音翻譯、手語翻譯、圖形翻譯等。機器翻譯從最早的基於規則的方法到二十年前的基於統計的方法，再到今天的基於神經網絡（編碼-解碼）的方法，逐漸形成了一套比較嚴謹的方法體系。
信息檢索：（Information Retrieval）是使用者進行信息查詢和獲取的主要方式，為查找信息的方法和手段。對大規模的文檔進行索引。可簡單對文檔中的詞彙，賦之以不同的權重來建立索引，在查詢的時候，對輸入的查詢表達式比如一個檢索詞或者一個句子進行分析，然後在索引裡面查找匹配的候選文檔，再根據一個排序機制把候選文檔排序，最後輸出排序得分最高的文檔。
問答系統：（Question Answering），使用者詢問問題，並依據輸入問題提供相關答案的資訊系統；系統回傳的答案必須提供足夠的資訊，讓使用者能夠驗證其相關性和正確性。因此系統需要對自然語言查詢語句進行某種程度的語義分析，包括實體鏈接、關係識別，形成邏輯表達式，然後到知識庫中查找可能的候選答案並通過一個排序機制找出最佳的答案。
對話系統：系統通過一系列的對話，跟用戶進行聊天、回答、完成某一項任務。涉及到用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外，為了體現上下文相關，要具備多輪對話能力。同時，為了體現個性化，要開發用戶畫像以及基於用戶畫像的個性化回覆。

資料科學
Data Science，是一門利用資料學習知識的學科，目標是通過從資料中提取出有價值的部分來生產資料產品。它結合了諸多領域中的理論和技術，包括應用數學、統計、圖形辨識、機器學習、資料視覺化、資料倉儲以及高效能計算。資料科學通過運用各種相關的資料來幫助非專業人士理解問題。以工作流程來看，可以分成四個步驟：