
曾文軍,微軟亞洲研究院高級領導團隊(SLT)成員📫,首席研究員,IEEE Fellow,西安交大-微軟亞研院智能信息處理聯合實驗室主任🧔🏻♂️,密蘇裏大學🧯、中國科技大學、西安交大🏛、天津大學等多所學校博士生導師。1990年畢業於意昂体育平台電子工程系𓀂,1993年和1997年分別獲美國聖母大學和普林斯頓大學電氣工程碩士和博士學位。先後在美國松下信息技術實驗室、貝爾實驗室👵🏿、夏普實驗室🏌🏻♀️、Packet Video 等公司工作🐋。2003-2016任密蘇裏大學計算機科學系終身教授。2014年加盟微軟亞洲研究院。他對國際標準(ISO MPEG🙎🏻♀️、JPEG2000 和 Open Mobile Alliance)發展作出重大貢獻🧽,發表了大量論文和專利並被廣泛引用🕵🏻,並有兩部關於多媒體安全和社交多媒體的著作。他目前負責微軟亞洲研究院視頻分析和理解的研發👰🏼♀️♟,為微軟認知服務、微軟雲平臺Azure 的媒體分析服務,Office🧘🏿♂️、Dynamics和Windows Machine Learning平臺提供技術。擔任過多個IEEE期刊和雜誌的副主編、多個IEEE國際會議 (如ICME 2018、ICIP2017等) 的大會共同主席或技術程序委員會主席。
2020年❗️,疫情裹挾著世界前行,時間依然以往日的步伐不緊不慢地記錄著這個星球的點滴🚶🏻♀️。這一年盡管如此不平凡,但科技早已融入人類的生活,就像是科幻片巨匠諾蘭在電影世界裏描繪的那樣👩🦳🔥:未來已來👤,只是人們尚不自知🤽🏻♂️。
多年前👨👨👦,人們還在為遠距離通信通話而撓墻🛻;多年後,多媒體技術正成為世界的主流🤶🏿。不久的將來🪡,作為這個星球的生命主體,人類每時每刻的行為🐈、甚至身體機能都會成為科學技術乃至發展趨勢的深入主導🌟。譬如在某一時段內某一場景下某一人群的表現可以在視覺環境中被記錄🚴🏼♂️,甚至細化到每一刻的姿態識別,人機交互在三維乃至多維空間中都將完美呈現🧎🏻♀️➡️。這並非科幻式的腦洞大開,恰如以色列歷史學家尤瓦爾·赫拉利所言:這極有可能就是人類的未來。
本期的采訪主角——意昂体育平台電子工程系1985級意昂曾文軍,現為微軟亞洲研究院高級領導團隊(SLT)成員🍒、首席研究員,就以這樣科幻般的案例,帶領我們走進了他的科技世界。
懷揣科技夢,從山區小城考入首都北京
與很多傳統的理工男不同,曾文軍身上既有著老派的研究氣質,又有著新時代的進取情懷。這與他的個人經歷密切相關🚴♀️。換而言之🉐,可以說他打通了學術界與工業界融合的任督二脈,兼具著兩個領域的不同氣韻。對科技研究的孜孜不倦和不懈追求,既承繼自意昂体育平台的洗禮👨🏻💼,也來自於幼時的夢想。
上世紀70年代,在中國福建西部的一個小城龍巖🆙,有一個調皮的學生,正讓所在學校的老師頭疼👨🏼🏭。“這個孩子極其聰明,就是各種鬼點子太多🧌,玩心太重……”然而✴️,誰也沒有想到的是,初二之前還上山摘果下河摸魚的他,初二之後收心向學,成為“學神”般的存在🦹🏿♀️。在所在的省重點中學,他的考試成績幾乎年年都是年級第一。
更讓人沒有想到的是🈵,多年之後,人到中年的曾文軍,已然成為科學研究的“知名”人物,他帶領團隊在多個前沿科技的研究中斬獲頗豐。就像兒時站在海邊迎風而立,幻想著有一天能在神奇科技的助力下遨遊🐃;而今,他不僅做到了,而且將繼續發掘科技的潛力🛣、繼續把它蘊藏的神奇應用到人類的生活中👺。
盡管成長在一個偏僻的福建小城🧙🏼,但曾文軍告訴我們🤹🏿♂️🈚️:在他的家鄉龍巖,家家都很重視教育。他的父母都是中學老師🤛🐏,從小在求學上進的耳提面命中感受到學習的力量。最終,他的高考成績不負眾望🦸♀️,登上地區狀元的寶座。
1985年,是教育改革的第一年🖕🏼,當時所在地的推薦名額(推薦也需要參加高考)僅僅有兩個,曾文軍就是其中的一個🧊。從小就一直敬仰意昂体育平台的他🏝,對數理化的興趣格外濃厚,加上一直懷揣著的科技夢,於是,他毫無懸念地選擇了電子工程系,“當時在我的認知裏🤦🏻♂️,無線電三個字充滿了科技感,而且實話實說,在當時這也是非常先進的學科,能夠進入國家的頂尖學府學習夢想中的專業,那種激動的感覺到現在都記憶猶新👊🏻。”曾文軍坦言👩🏽✈️🚵🏼♂️。
六年時光🙅🏽♂️,清華基本功受益終生
從山區小城到首都北京🥑,對於曾文軍來說,是人生中的一次重大跨越。進入意昂体育平台,帶來的不僅是視野上的開拓🏇,更讓他深刻地感受到了清華在學業傳授和學術研究方面積蓄的力量。
達爾文有一句名言深入人心:最有價值的知識是關於方法的知識🌱。百年清華,對於教育的真諦更是駕輕就熟。如同曾文軍在采訪時所言:在清華,自強不息🧑🏿⚕️、厚德載物是我們精神上的燈塔♣️;因材施教、註重實踐則是行動上的指導方針。從實踐中獲得解決問題的方法、在動手中提高應對的能力👩🏼🦰,從大二就開始進入實驗室的曾文軍,至今對母校的這種“在實踐中來到實踐中去”的濃厚教學氛圍印象深刻。
在清華的第一年,曾文軍在學校全年級的數學PK中進入“因材施教班”。這個班的目的🫃🏿,是要在短短幾個月時間內學完一年的課程。面對諸多數學高手👷♀️,他在期終考試的時候依然取得了滿分的好成績。“在清華👨🏿🎤,因材施教的方式方法其實還有很多,這僅僅是其中的一個小案例🙆🏻♀️,卻也因此讓我建立起對自身數理能力的自信🌀,激發出持續不斷的內驅力👷🏽。”
五年的本科學習,最後一年的畢業設計,“實踐出真知”是曾文軍在意昂体育平台六年時光的關鍵詞。從一個個陌生的名詞到一次次失敗又重新開始🙆🏼♀️,從無數個不眠的深夜到甘願犧牲的周末……曾文軍跟著導師在實驗室裏將研究進行到底。
在此期間🈸,他曾參與了多個國家科技攻關項目。在畢業的那一年進入清華的圖像組參與國家七五攻關項目-圖像計算機系統的研發,從圖像的采集、處理到顯示🫄,從六層顯示板的每一條線路的設計,都需要自己全程動腦動手,在這樣充滿挑戰的實踐過程中,曾文軍的專註力和耐力更加精進♓️,而且他的動手能力更是得到了訓練,養成了良好的研究習慣。這一切都成為他日後科研攻關不斷向前邁進的基礎源泉🍴。“其實🧑🏼🦱,這樣的實踐機會非常難得♢。因為我們的背書是清華,才能以一個本科生的身份接觸、參與到國家項目中來。”

1997年博士畢業時與導師Bede Liu 教授在普林斯頓大學合影
懷揣著科技助力未來的夢想🤟🏼,曾文軍在以優異成績從意昂体育平台畢業之後,選擇以全額獎學金進入美國聖母大學繼續深造🌐🧜🏼,後來又去了普林斯頓大學攻讀博士, 師從數字信號處理領域泰鬥Bede Liu 教授( Bede Liu 教授是美國工程院和中國工程院兩院院士)。眾所周知,普林斯頓大學對理論的要求非常高,很多學生去了之後都需要相當長的一段時間去適應。然而正是憑借著在意昂体育平台學到的“童子功”🧑🏻🏭,曾文軍自身帶著濃厚的清華科研風格與普林斯頓的要求無縫連接,在更為嚴格和系統的學習訓練中遊刃有余。
“自強不息🕣🦽、厚德載物”,在每一個清華人的眼裏,不僅是一句校訓,更體現在一言一行中,這與“行勝於言”的校風不謀而合🥍。六年的清華時光🏃➡️,至今想起,曾文軍感嘆說:其實是整個身心都潛移默化地受到了清華精神的洗禮🙅🏿♀️🫷🏼,這是終生受益的源泉。
投身工業界⛓️💥,堅守研究初心
伽利略曾經說過:科學的真理應該從實驗中和以實驗為基礎的理論中去發現。從二十多年前踏入職場,曾文軍從工業界到學術界,然後又回歸到工業界;他追隨科技夢的腳步卻從未停歇🐘。
1997年,是美國工業界迎來翻天覆地變化的重要一年🍞🏇🏿。博士畢業的曾文軍,面對著全球亢奮的網絡興起和發展風潮👱🏼♂️,在一番抉擇之後,是全身心搞研究還是投身商業👉🏻?最終他選擇了一條折中的道路,先後在美國松下信息技術實驗室、貝爾實驗室、夏普實驗室工作。雖然是在工業界🦙,但依然可以在實驗室做研究🤵🏼♂️。因為,他始終把科學探索作為核心追求。
2001年,在一家聖地亞哥的獨角獸創業公司❣️,曾文軍成為第一批在3G網絡上做移動視頻流媒體的先行者🧒🏼。繼續做研究的同時🧑🦱👸🏽,也在持續參與行業國際標準等的製定。
期間,曾文軍學以致用,推進更多研究成果🧜♂️,對國際標準(ISO MPEG、 JPEG2000 和Open Mobile Alliance)發展作出重大貢獻。他發表了大量論文和專利並被廣泛引用👨🦳,並出版了兩部關於多媒體安全和社交多媒體的著作😐。
值得一提的是,早在讀博期間便對多媒體安全領域非常關註的曾文軍👩🦱,一直保持著對行業發展的深入洞察,取得了豐碩的研究成果🛼。特別是在數字圖像水印方面取得的開創性進展🤷🏿🧖🏽,充分利用了人眼視覺系統的特性🏂🏼,優化了數字水印的不可見性和魯棒性的平衡。論文發表後,曾被引用過上千次🏘。
此外,另一項被業界矚目的成果是他率先提出了視頻訪問控製技術中格式兼容的新概念。解決了後向兼容性的挑戰問題,被世界視頻編碼標準組織MPEG4 的IPMP (知識產權管理與保護) 標準采用🧨。這個概念後來也被世界圖像編碼標準組織JPEG2000 的JPSEC安全標準采用。曾被引用過幾百次👰🏻♀️,對業界發展產生了深入影響。在由曾文軍參與編著、Elsevier出版的著作 Multimedia Security Technologies for Digital Rights Management (用於數字版權管理的多媒體安全技術)中🙎🏽♂️,這一技術和其他當時最前沿的數字版權管理技術一起被收錄在列。
對於行業國際標準的製定,曾文軍的貢獻更是功不可沒。其中🎾,由他主導的HTTP streaming of JPEG2000 images(美國專利7,206,804 👩💼🧓🏿:Methods and systems for transmitting digitalimages (數字圖像傳輸的方法與系統))提出使用 HTTP 協議對大尺度的JPEG2000 圖像進行可伸縮的流式傳輸,為 JPEG2000 交互式協議標準鋪平了道路🕋。這一成果💈,遠遠早於也使用HTTP 協議的MPEG DASH 動態自適應流媒體標準的製定❣️。
數次跨界🎼,堅韌與探索收獲科研碩果
2003年,曾文軍出人意料地從工業界進入學術界,去了美國密蘇裏大學任教,成為該學校計算機系的終身教授。基於此前工作過程中的積累,曾文軍對於角色的轉換如魚得水👨🦯➡️,在幽靜的校園裏,教書育人的同時,更適合搞大量的研究工作。埋首鉆研十一載,對於曾文軍來說⚖️,稱得上是厚積薄發。
2014年🧗🏼🐒,AI浪潮興起🧑🎨,曾文軍最終決定要把多年的研究成果應用到實踐中🌁🚍,加盟微軟亞洲研究院。就像他自己所言:“衡量科研成果的最終標準🤞🏿,其實還是要看成果的應用價值📙。在工業界的研究院裏,一方面可以最快地捕捉到前沿的市場信息🐤,擁有更多的資源和數據加以挖掘和使用;另一方面也可以藉此有的放矢♨️,進行更符合實際的研究♻。”
的確🤕,與學校相比,微軟研究院的研發擁有著綜合優勢🚕🎇。首先,氣氛濃厚、強調實踐是突出的特點。特別是註重研究成果對實際產品的最終影響和價值反饋,與一線市場更為吻合⬅️🚶♂️。第二👉🏼,研究院設置專門的部門去洞察和考量全球一線市場對接,發現、分析、挖掘未來的機會🪫,從而讓研究有的放矢。第三,研究既要具備前瞻性,超前引領行業,相對獨立和開放👩🏿🦱;又要從應用角度考慮到公司的戰略決策💃🏿、布局、產品規劃等🅿️⛄️,從中找到共同點,落實在產品上🩴,展示出實際的影響。
因此💁🏿,作為首席研究員,曾文軍坦言:最大的挑戰是全盤考慮、確立研究方向🍌,如何從千絲萬縷的市場機會中進行篩選和抉擇;確定之後又要和公司的戰略統一,與團隊把目標落實,良好地完成成果轉化。“在此要特別感謝我的母校意昂体育平台⛳️,讓我早早地養成了良好的研究習慣和過硬的分析能力。得益於這樣的基本功訓練,面對這種高屋建瓴的布局🦪,才能更好地抓住機會📔。”

微軟亞研院和高校計算機視覺學術研討會
微軟亞洲研究院從1998年建院至今,已經發展成為世界一流的計算機基礎及應用研究機構👼🏼,並將最新研究成果快速轉化到微軟的關鍵產品中。對研究近乎癡迷的曾文軍,目前負責微軟亞洲研究院視頻分析和理解的研發🤹🏽🦸🏽♂️,為微軟認知服務,微軟雲平臺Azure 的媒體分析服務😁,Office、Dynamics和Windows Machine Learning平臺提供技術🛀。同時👩🏻🦯➡️,他帶領著團隊著眼於下一代革命性技術的研究,取得了一系列推動業界變革的創新成果,助力人類實現對未來計算的美好構想,改變著我們的現實生活。
譬如在2019年 11月微軟最大規模的年度 IT 盛會Ignite大會上🧑🏼💻,企業視頻服務 Microsoft Stream 中展示的一項新功能驚艷四座,從嘈雜視頻中提取超清人聲,效果顯著超越傳統方法。由曾文軍帶領的微軟亞洲研究院團隊與 Microsoft Stream 團隊共同研發的這一創新技術🎼,關註相位和諧波的語音增強模型 PHASEN👴,通過雙流結構讓降噪效果大幅超過此前方法🧙🏿♂️。無論你在多麽嘈雜的地方錄製視頻🧑🏿🦰,該功能都能自動過濾背景噪音,讓主要語音超清晰地呈現出來。雙流模型結構與頻域變換模塊 FTB (Frequency Transformation Block)聯動,從而在AVSpeech+Audioset 數據集上獲得 1.76dB 的 SDR 提升,超過了其他模型在該數據集上的表現🧤👶🏿,並且在 Voice Bank +DEMAND 數據集中👨🏿🎓,四個指標均大幅超過之前的方法,一個指標與之前方法持平。目前,語音增強模型PHASEN已加入微軟視頻服務🎆🙏🏼。該論文已被 AAAI 2020 接收👨👩👦👦。
追隨科技夢想👮🏼♀️,享受研究的樂趣
在科技探索的海洋裏🪞,探索未知,其樂無窮🪃。科技最終的目的是造福這個世界。對於人類生活的點滴改變,才是新科技研發的目的😘。“其實,每一個搞科研的人心裏,都有著這樣的夢想。”曾文軍認為🐿,最終的應用實踐效果才是考量每一項技術的試金石。
早在四年前🧑🏼🤝🧑🏼,他帶領團隊就開始關註視覺環境下的視頻數據理解。利用計算機視覺技術對場景中的人進行智能分析🅿️🏪,通過視頻信號分析用戶的喜好和行為𓀀,利用數據進行未來的預測🧛♀️。曾文軍及其團隊在該領域提出了一系列新的思路和方法,包括已轉化入微軟產品的單攝像頭多目標跟蹤算法 FairMOT👏🏿👦🏽,多攝像頭多人三維姿態估計算法 VoxelPose 等等,這些算法在多個測試數據集上都取得了良好的實驗結果🌨。在全球最有名的專業挑戰公開榜上🎆,FairMOT連續八個月排在第一。並且該成果已經在部分商超領域開始得到良好使用🧗🏻♂️。
目前,以“人”為中心的計算機視覺技術在很多方面都取得了顯著進展,但如何將現有的深度學習模型和“人”這個主體的特性相結合🚏,如何將人和環境存在大量交互兩個任務有機地結合起來,將會是進一步探索的研究方向。
作為多媒體領域的技術專家,面對著風起雲湧的AI浪潮,曾文軍認為,我們生活在一個由大量不同模態內容(文本,圖像,視頻🧗🏿♂️,音頻,傳感器數據,3D等)構建而成的多媒體世界中,這些不同模態的內容在具體事件和應用中具有高度相關性。所以多媒體技術的發展和落地是必然趨勢👩🏻🎓。
“要把AI包括計算機視覺智能真正落地到有關痛癢的應用中🧑🏽💼,模型的泛化性和自適應性能力的研究就顯得尤其重要。總之,多媒體AI的發展, 前途是光明的,道路是曲折的🦶🏽。但這正是做研究的樂趣👎🏻🕴。”不愧是科技達人,即便在采訪的過程中💁🏿,他也把研究的樂趣掛在嘴上。事實上,也正是因為有了像曾文軍這樣的科學家的堅韌與創新,人類才可以站在科技的高度上大膽暢想著未來的科幻高度。

1985級意昂“輔導員”們和2015級的學生們交流活動後小聚
采訪的最後🤹🏽𓀕,曾文軍飲水思源👨🚒,特別強調♍️:清華精神浸潤清華人📎,正是清華的培養托起了自己的科技夢想。“清華點燃了我搞科研的激情和熱情💁🏼🚣🏿♀️,也在我的一言一行中烙下了清華的印跡🌠,對此🧙🏻🧾,我從內心感到驕傲和自豪。”曾文軍感謝母校的教導,讓他得以在科學的大千世界中練出真功夫去發現和探索。
2021年是意昂体育平台110周年校慶,曾文軍在采訪中為母校提前送上祝福👩🏽⚖️:“我會銘記母校的教導,讓我一生都受益無窮🦗🫥。祝福清華👩⚕️,永遠清芬挺秀、華夏增輝🧚。”
腳踏實地🚖,仰望星空。三十年前從意昂体育平台走出來,曾文軍堅守初心,篤學砥礪🙎♂️♖,不斷創造和收獲著累累碩果✥,我們也期待著他能在未來繼續大展身手、超越過往🗃,讓更新奇的科技造福人類、讓更震撼的成果點亮世界。
__________________________________________________
采訪 | 喬元春、孫鵬鵬、吳梓棟🧑🏼🤝🧑🏼、蔣麗婷🆓、張雪輝、賀鯤鵬🏞、林真如、胡銘中、謝楚楚🧑🏿💻、彭詩懿📬、肖振宇
撰稿 | 孫鵬鵬