在CCF GAIR 2019(全球人工智能與機器人峰會)上,騰訊AI Lab Robotics X實驗室主任張正友博士以其深厚的學術積淀與前沿的產業視角,發表了題為“計算機視覺的三生三世”的精彩演講。本次演講不僅系統梳理了計算機視覺技術的發展脈絡,更結合騰訊在AI與機器人領域的探索,揭示了該技術從感知到認知、再到行動的演進軌跡,以及對未來技術開發和產業應用的深遠影響。
第一生:從“看見”到“看懂”——感知智能的崛起
張正友博士首先回顧了計算機視覺的“第一生”,即從圖像處理到模式識別的經典時期。這一階段的核心目標是讓機器“看見”,即從像素中提取邊緣、角點、紋理等特征,進而完成物體識別、目標檢測等基礎任務。算法從傳統的SIFT、HOG特征描述子,發展到基于統計學習的模型。這一時期的技術突破,為安防、醫療影像等領域的初步自動化奠定了基礎,但機器的“理解”仍停留在表層特征匹配,缺乏對場景的深度語義解析。
第二世:深度學習的革命——認知智能的飛躍
演講的重點落在了計算機視覺的“第二世”,即深度學習驅動下的爆發式增長。張博士指出,卷積神經網絡(CNN)的復興,尤其是AlexNet在2012年ImageNet競賽中的突破性表現,徹底改變了領域格局。機器不再僅僅“看見”輪廓,而是開始“看懂”內容——識別千類萬物、理解復雜場景、甚至生成逼真圖像。這一階段,計算機視覺技術與自然語言處理、語音識別深度融合,催生了跨模態理解能力,例如圖像描述、視覺問答等。張博士分享了騰訊AI Lab在視頻理解、人臉識別、醫療影像分析等方面的前沿成果,體現了認知智能在產業落地中的巨大價值。
第三世:從認知到行動——具身智能的未來
最為前瞻的部分,張正友博士闡述了正在開啟的“第三世”:計算機視覺與機器人學的深度融合,即“具身視覺”或“機器人視覺”。這標志著技術從被動“看懂”世界,邁向主動“交互”與“改變”世界。在這一階段,視覺系統不僅是感知器官,更是機器人決策與行動的核心導航與反饋系統。它需要解決動態環境中的實時定位與地圖構建(SLAM)、手眼協調、復雜操作等挑戰。作為騰訊Robotics X實驗室的負責人,張博士特別強調了其在機器人感知、決策與控制一體化方面的探索,例如靈巧操作、移動導航等,目標是打造能夠適應復雜物理世界的智能體。這不僅是技術的演進,更是計算機視覺從虛擬信息處理走向實體世界交互的關鍵一躍,將為智能制造、無人駕駛、家庭服務機器人等帶來革命性變化。
計算機技術開發的啟示與展望
貫穿整個演講,張正友博士結合其領導騰訊AI Lab Robotics X的實踐經驗,對計算機技術開發提出了深刻見解。他認為,未來技術的發展必然是跨學科的融合,計算機視覺需要與強化學習、機器人學、認知科學更緊密結合。技術的落地必須緊密結合真實場景的需求,解決數據稀缺、模型可解釋性、安全倫理等核心挑戰。騰訊正通過“AI in All”的戰略,將包括視覺在內的AI能力賦能于游戲、內容、社交、醫療等廣泛領域,而Robotics X則聚焦于前沿的通用人工智能與實體智能研究。
張正友博士在CCF GAIR 2019的演講,以“三生三世”為喻,清晰勾勒出計算機視覺從感知、認知到行動的宏大技術史詩。這既是對過往成就的,更是對尤其是視覺與機器人結合所開啟的“第三世”的激昂展望。它為全球的計算機技術開發者與研究者指明了一個方向:人工智能的終極使命,或許是創造出能夠像人一樣,通過視覺感知世界、理解世界并最終靈巧作用于世界的智能機器。騰訊在此征程中的布局與實踐,無疑將成為推動這一未來加速到來的重要力量。