人工智慧於數據科學領域之應用論壇
線上報名截止日期:106 年 12月 17 日 人數上限150人報名已超額, 不再受理報名
會議摘要
一、 數據科學應用
- 林軒田教授,臺灣大學資訊工程學系暨沛星互動科技公司(Appier)首席資料科學
議題: 成本導向分類方法與應用
簡介: 分類問題是機器學習的核心之一,傳統的分類方法試圖降低分類的錯誤率。但在很多的應用中,錯誤率並非最重要的目標,因為不同的錯誤有不同的嚴重性,這樣的應用可以被描述為成本導向分類問題---不同的分類錯誤會付出不同的成本代價。許多的成本導向分類方法嘗試著將這個問題轉化為其他的機器學習問題,在這個演講中,我們提出一個將成本導向分類問題轉化為迴歸分析問題的方法,這個方法雖然簡單,但有著很好的理論性質,並可以用以設計具體的演算法。透過這個轉化,我們設計了一種新的支撐向量機,並得到了更佳的實驗結果。這個方法也可以延伸至深度學習,並在實務的細菌分類問題上有很好的表現。
Title: Cost-sensitive classification: Algorithm and Application Abstract: Classification is an important problem in machine learning. It can be used in a variety of applications, such as separating apples, oranges, and bananas automatically. Traditionally, the regular classification setup aims at minimizing the number of future mis-prediction errors. Nevertheless, in some applications, it is needed to treat different types of mis-prediction errors differently. Such needs can be formalized as the cost-sensitive classification setup, which is drawing much research attention because of its many potential applications, including targeted marketing, fraud detection and web analysis. Many existing approaches were designed by reducing the cost-sensitive classification task to regular classification tasks. In this talk, we propose an alternative route: reducing from cost-sensitive classification to regression. The route is simple yet powerful. In particular, we are able to not only prove theoretical guarantees of the reduction, but also design empirically promising algorithms. In particular, we designed a reduction to the one-sided support vector regression---a variant of the popular support vector machine---and demonstrated its superiority for cost-sensitive classification. We will also quickly discuss about its extension to deep learning, and its application in the medical domain.
- 銀慶剛教授,清華大學統計所
議題: Model selection for high-dimensional heteroscedastic and dependent data using linear and nonlinear greedy methods
簡介: 高科技產品的良率資料以及環境監測資料不僅維度高且常伴 有異質性(heteroscedasticity)及時間相依性(serial dependence) 。 在這個演講中我們討論如何用線性的貪婪驗算法,如: Orthogonal Matching Pursuit,及非線性的貪婪驗算法,如: Chebyshev greedy algorithms,為此類資料建模;我們並從恢復(recovery)及誤差上界 (error bound)的角度分析它們的表現。
- 吳浩榳,美國杜克大學(Duke University)數學系、統計系
議題: Diffuse to fuse sensors
簡介: Understanding the intrinsic structure from a given massive dataset, which is often nonlinear and complex, is a common challenge shared in almost all scientific fields, and the problem is becoming more challenging when the data are from multiple sensors with heterogenous data types. The diffusion geometry is a flexible framework that has led to several convincing results with solid theoretical backup. We will discuss how to apply the diffusion geometry, particularly the common manifold model and alternating diffusion, to deal with the sensor fusion problem. Its application to the sleep dynamics analysis will be shown.
二、 人工智慧與數據科學的結合:
- 楊振翔副研究員,中央研究院統計科學研究所
議題: Perspectives of AI Applications for Data Science
簡介: 討論人工智慧領域(AI)應用於數據科學(Data Science)領域方面的發 展,以及未來發展性。
- 彭冠舉助理教授,中興大學應用數學系
議題: Nonconvex Proximal Splitting Methods for Convolutional Sparse Representation
簡介: 卷積式神經網路(Convolution Neural Network, CNN)是類神經網路中 一種重要的結構。無論是在自然語言處理,影像識別,影像重建等應 用中,都有著非常重要的角色。相對於傳統神經網路,卷積神經網路 的特色是,能夠對不同維度的訊號,抽取出其相同維度的特徵,這樣 的特性讓我們可以避免將原訊號降維或是分割等,破壞原訊號結構的 處理,從而得出更完整的特徵。然而,目前的卷基式神經網路,在學 習訊號特徵的過程之中,主要使用一階或是二階的隨機更新方法,並 且,其收斂性,以及穩定性,並沒有較嚴謹的討論。彭冠舉助理教授 在這個工作之中,主要針對卷積式神經網路的一種特殊形式,卷積式 稀疏表示法,提出了一個基於其收斂性的分析,能夠隨適地調整其學 習速率的最佳化演算法。實驗結果表明,相對其他沒有調整學習速 率,或是,使用直觀式調整學習速率的演算法,他的方法提供了更快 的收斂速率,以及更穩定的收斂結果。同時,他也發現借由我們提出 的學習演算法學習出的訊號表示,在幾項影像處理的實驗中,能夠提 供更加的效能。在之後的研究中,他將把這項表示演算法應用在自然 語言處理等其他應用中,以便更加擴展這項技術的應用範圍。
- 李政德教授,國立成功大學統計系
議題: When Graph-based Learning Meets Applied Data Science
簡介: 人工智慧領域(AI)應用於異質性資料分析與預測上,尤其在推估環境資訊與推薦系統上,近年來最廣為被採用的技術包含非負矩陣或張量 分解法、類神經網路與深度學習、並結合群眾外包技術即時引入任意 時間地點的感測資料,試圖將不同來源的資料投射在同一特徵空間 中,進而學習出一系列影響環境資訊或項目評價的潛在變數,使得將 來新的感測資料進來得以準確估計出其環境感測數值與項目評價分 數。由於既有人工智慧方法受到高資料維度影響計算效率,加上標註 與未標註資料均極度稀疏,以及預測模型解釋性低等缺點,目前趨勢 朝向結合遷移學習之技術,學習出不同領域但具類似性質之資料在低 維特徵空間中的彼此關聯,此外,另一AI技術趨勢為以圖形為基礎之 半監督式學習技術,可有效利用有限標註資料,迭代出預測結果,尤 其是基於資料圖形結構之特徵向量嵌入學習法,讓資料分析者不再需 要自訂特徵或變數,而是讓機器自動學習出最能描述目標函數的特徵 向量,初步實驗比過去的監督式學習法擁有更高的準確性。
三、 多重隨機速寫及影像處理應用:
- 王偉仲教授,台大應用數學研究所
議題:Parallel singular value decomposition by random sketches for big data intelligent analysis.
簡介:隨機速寫(random sketching)為近年來處理大數據及AI的重要工具之 一。深度學習中十分重要的dropout training即為一種整合多重隨機 速寫的概念。SIAM (Society for Industrial and Applied Mathematics) 於2016年將隨機數值方法列為發展的新趨勢。王教授 將談論以隨機速寫方法結合統計及幾何的理論於發展CPU/GPU平行 算則,並將對此議題做深入淺出的介紹。
- 章為皓副研究員,中央研究院化學所
議題: 用人工智慧處理分子影像的大數據: 從今年諾貝爾化學獎談起
簡介:章教授的研究專長之一為使用低溫電子顯微鏡解決蛋白質巨分子複合 物的原子結構。2017年的諾貝爾化學獎的三位得獎人的得獎成就,即 與低溫電子顯微鏡的研發有關,以簡化並改善生物分子成像。中研院 已購入造價二億餘元的低溫電子顯微鏡,由章教授協助及規劃高通量 影像攝取、儲存和三維重建系統之建置。未來預期將有巨量的低溫電 子顯微鏡影像資料產出。章教授將談論如何結合統計理論與AI技術於 影像資料分析及其願景。