人工智慧於數據科學領域之應用論壇

會議地點：中山大學國研大樓華立廳

會議時間：106年12月21日(星期四)

指導單位：科技部

主辦單位：中山大學應用數學系

　　　　　中山大學跨領域及數據科學研究中心

　　　　　國家理論科學研究中心

線上報名：http://hp1.math.nsysu.edu.tw/conference/ai2017
線上報名截止日期：106 年 12月 17 日人數上限150人報名已超額, 不再受理報名

科技部以「小國大戰略」思維，選定人工智慧(簡稱AI)、物聯網、量子電腦、生技醫療等作為台灣科研戰略重點核心，並於今年8月推動「AI創新研究中心專案計畫」，期望在核心硬體設施、演算法技術、智慧應用領域等面向多管齊下，建立AI創新生態圈，引導臺灣成為AI發展重鎮。

AI的科學研究萌芽於1950年代，但因當時的軟硬體設備條件不足，限制了AI的發展。近年來由於大容量的硬體設備、圖形處理器(GPU)的發展及以統計與數學奠基的演算法改進，加速計算能量的增長，使得AI的研究再度興起一波新的浪潮，也被認為是掀起第四波工業革命的核心。

AI的發展奠基於許多重要的統計思維與技術，如羅吉斯迴歸、貝氏統計(Bayesian statistics)、entropy、維度縮減、模型選擇(model selection)、正規法(regularization)等等。這些統計思維對於深度模型的成功學習不可或缺。此外深度學習亦仰賴於對大量數據的學習與分析，然而資料的蒐集與分析耗時且需要投入大量成本，統計理論於巨量資料分析與深度複雜模型(deep and complex models)的學習，如高維度統計推論與模型選擇、高維度貝氏計算、降維、機率算則(stochastic algorithms)等，對巨量資料的分析有極大的助益，因此對AI的發展是重要的因子。數據科學大量應用統計理論與機器學習方法分析高度複雜數據，並提煉出有價值的資訊，以達到模型學習的成效。AI較多的關注是在產業的應用及整合算法，數據科學的強項在於數據蒐集和擷取有用的資料訊息。AI與數據科學的相輔相成，未來可擴展到更多方面的應用，並成功吸引市場關注。

目前台灣企業及工業界對於數據挖掘及分析技術、機器學習與深度學習的技術仍未普遍使用。科技部為了推動人工智慧的發展與應用，於106年12月21日在國立中山大學舉辦『人工智慧於數據科學領域之應用論壇』，特別邀請沛星互動科技公司(Appier)的首席資料科學家林軒田教授講授成本導向分類方法與應用、清華大學統計所銀慶剛特聘教授論述如何應用模型選擇技巧於高科技產品製程、美國杜克大學吳浩榳教授談論以擴散幾何學的理論處理複雜與多樣化的資料、台灣大學王偉仲教授講授AI的重要工具隨機速寫(random sketching) 、中央研究院章為皓副研究員從今年諾貝爾化學獎談論如何應用人工智慧處理分子影像的大數據。此外亦邀請多位知名的學者分享他們在數據科學領域的研究成果及實務經驗。藉由此次的論壇，結合學界跨領域研發能量，共同發展數據科學及AI的未來先進技術。期待數據科學在基礎研究及應用的發展，可以提升AI的技術使其具備更強大的能力。

會議摘要

一、數據科學應用

林軒田教授，臺灣大學資訊工程學系暨沛星互動科技公司(Appier)首席資料科學
議題: 成本導向分類方法與應用
簡介: 分類問題是機器學習的核心之一，傳統的分類方法試圖降低分類的錯誤率。但在很多的應用中，錯誤率並非最重要的目標，因為不同的錯誤有不同的嚴重性，這樣的應用可以被描述為成本導向分類問題---不同的分類錯誤會付出不同的成本代價。許多的成本導向分類方法嘗試著將這個問題轉化為其他的機器學習問題，在這個演講中，我們提出一個將成本導向分類問題轉化為迴歸分析問題的方法，這個方法雖然簡單，但有著很好的理論性質，並可以用以設計具體的演算法。透過這個轉化，我們設計了一種新的支撐向量機，並得到了更佳的實驗結果。這個方法也可以延伸至深度學習，並在實務的細菌分類問題上有很好的表現。
Title: Cost-sensitive classification: Algorithm and Application Abstract: Classification is an important problem in machine learning. It can be used in a variety of applications, such as separating apples, oranges, and bananas automatically. Traditionally, the regular classification setup aims at minimizing the number of future mis-prediction errors. Nevertheless, in some applications, it is needed to treat different types of mis-prediction errors differently. Such needs can be formalized as the cost-sensitive classification setup, which is drawing much research attention because of its many potential applications, including targeted marketing, fraud detection and web analysis. Many existing approaches were designed by reducing the cost-sensitive classification task to regular classification tasks. In this talk, we propose an alternative route: reducing from cost-sensitive classification to regression. The route is simple yet powerful. In particular, we are able to not only prove theoretical guarantees of the reduction, but also design empirically promising algorithms. In particular, we designed a reduction to the one-sided support vector regression---a variant of the popular support vector machine---and demonstrated its superiority for cost-sensitive classification. We will also quickly discuss about its extension to deep learning, and its application in the medical domain.
銀慶剛教授，清華大學統計所
議題: Model selection for high-dimensional heteroscedastic and dependent data using linear and nonlinear greedy methods
簡介: 高科技產品的良率資料以及環境監測資料不僅維度高且常伴有異質性(heteroscedasticity)及時間相依性(serial dependence) 。在這個演講中我們討論如何用線性的貪婪驗算法，如: Orthogonal Matching Pursuit，及非線性的貪婪驗算法，如: Chebyshev greedy algorithms，為此類資料建模；我們並從恢復(recovery)及誤差上界 (error bound)的角度分析它們的表現。
吳浩榳，美國杜克大學（Duke University)數學系、統計系
議題: Diffuse to fuse sensors
簡介: Understanding the intrinsic structure from a given massive dataset, which is often nonlinear and complex, is a common challenge shared in almost all scientific fields, and the problem is becoming more challenging when the data are from multiple sensors with heterogenous data types. The diffusion geometry is a flexible framework that has led to several convincing results with solid theoretical backup. We will discuss how to apply the diffusion geometry, particularly the common manifold model and alternating diffusion, to deal with the sensor fusion problem. Its application to the sleep dynamics analysis will be shown.

二、人工智慧與數據科學的結合：

楊振翔副研究員，中央研究院統計科學研究所
議題: Perspectives of AI Applications for Data Science
簡介: 討論人工智慧領域(AI)應用於數據科學(Data Science)領域方面的發展，以及未來發展性。
彭冠舉助理教授，中興大學應用數學系
議題: Nonconvex Proximal Splitting Methods for Convolutional Sparse Representation
簡介: 卷積式神經網路(Convolution Neural Network, CNN)是類神經網路中一種重要的結構。無論是在自然語言處理，影像識別，影像重建等應用中，都有著非常重要的角色。相對於傳統神經網路，卷積神經網路的特色是，能夠對不同維度的訊號，抽取出其相同維度的特徵，這樣的特性讓我們可以避免將原訊號降維或是分割等，破壞原訊號結構的處理，從而得出更完整的特徵。然而，目前的卷基式神經網路，在學習訊號特徵的過程之中，主要使用一階或是二階的隨機更新方法，並且，其收斂性，以及穩定性，並沒有較嚴謹的討論。彭冠舉助理教授在這個工作之中，主要針對卷積式神經網路的一種特殊形式，卷積式稀疏表示法，提出了一個基於其收斂性的分析，能夠隨適地調整其學習速率的最佳化演算法。實驗結果表明，相對其他沒有調整學習速率，或是，使用直觀式調整學習速率的演算法，他的方法提供了更快的收斂速率，以及更穩定的收斂結果。同時，他也發現借由我們提出的學習演算法學習出的訊號表示，在幾項影像處理的實驗中，能夠提供更加的效能。在之後的研究中，他將把這項表示演算法應用在自然語言處理等其他應用中，以便更加擴展這項技術的應用範圍。
李政德教授，國立成功大學統計系
議題: When Graph-based Learning Meets Applied Data Science
簡介: 人工智慧領域(AI)應用於異質性資料分析與預測上，尤其在推估環境資訊與推薦系統上，近年來最廣為被採用的技術包含非負矩陣或張量分解法、類神經網路與深度學習、並結合群眾外包技術即時引入任意時間地點的感測資料，試圖將不同來源的資料投射在同一特徵空間中，進而學習出一系列影響環境資訊或項目評價的潛在變數，使得將來新的感測資料進來得以準確估計出其環境感測數值與項目評價分數。由於既有人工智慧方法受到高資料維度影響計算效率，加上標註與未標註資料均極度稀疏，以及預測模型解釋性低等缺點，目前趨勢朝向結合遷移學習之技術，學習出不同領域但具類似性質之資料在低維特徵空間中的彼此關聯，此外，另一AI技術趨勢為以圖形為基礎之半監督式學習技術，可有效利用有限標註資料，迭代出預測結果，尤其是基於資料圖形結構之特徵向量嵌入學習法，讓資料分析者不再需要自訂特徵或變數，而是讓機器自動學習出最能描述目標函數的特徵向量，初步實驗比過去的監督式學習法擁有更高的準確性。

三、多重隨機速寫及影像處理應用：

王偉仲教授，台大應用數學研究所
議題:Parallel singular value decomposition by random sketches for big data intelligent analysis.
簡介:隨機速寫(random sketching)為近年來處理大數據及AI的重要工具之一。深度學習中十分重要的dropout training即為一種整合多重隨機速寫的概念。SIAM (Society for Industrial and Applied Mathematics) 於2016年將隨機數值方法列為發展的新趨勢。王教授將談論以隨機速寫方法結合統計及幾何的理論於發展CPU/GPU平行算則，並將對此議題做深入淺出的介紹。
章為皓副研究員，中央研究院化學所
議題: 用人工智慧處理分子影像的大數據: 從今年諾貝爾化學獎談起
簡介:章教授的研究專長之一為使用低溫電子顯微鏡解決蛋白質巨分子複合物的原子結構。2017年的諾貝爾化學獎的三位得獎人的得獎成就，即與低溫電子顯微鏡的研發有關，以簡化並改善生物分子成像。中研院已購入造價二億餘元的低溫電子顯微鏡，由章教授協助及規劃高通量影像攝取、儲存和三維重建系統之建置。未來預期將有巨量的低溫電子顯微鏡影像資料產出。章教授將談論如何結合統計理論與AI技術於影像資料分析及其願景。

邀請者: 2017/12/21

教室: 2017/12/21

題目: 106

單位: 113

瀏覽數: