亚洲国产精品无码专区网站_黄色视频链接在线观看_欧美日韩待黄一级A片_在线观看免费毛片 - 美国一级视频

行業新聞
高通量媒體內容理解論壇抖音快手齊上陣,你 pick 誰 | CNCC 2018
來源: 華夏博雅 發布時間: 2018-10-27作者: 華夏博雅

  雷鋒網 AI 科技評論按,2018 中國計算機大會(CNCC2018)于 10 月 25-27 日在杭州國際博覽中心舉辦,會議由中國計算機學會(CCF)主辦,杭州市蕭山區人民政府、浙江大學承辦,浙江工業大學、浙江工商大學、杭州電子科技大學協辦。今年的大會主題是「大數據推動數字經濟(Big Data Drives the Digital Economy)」,CNCC 邀請到近 400 位國內外計算機領域知名專家、企業家到會演講,會議包括 15 個特邀報告、3 個大會論壇,60 個技術論壇,20 場特色活動。

  今天已是大會最后一日,上午精彩的主論壇結束之后,迎來了下午多場技術論壇。在「高通量媒體內容理解」論壇上,來自學界的兩位嘉賓——中國科學技術大學張勇東教授、北航計算機學院長江學者特聘教授李波,以及來自業界的兩位嘉賓——字節跳動人工智能實驗室總監王長虎、快手多媒體內容理解部負責人李巖帶來了四場精彩的分享,內容涉及到一系列圖像、視頻理解相關技術及其應用,還有目前所面臨的一系列挑戰。

  論壇伊始,論壇主席、合肥工業大學計算與信息學院教授洪日昌對高通量媒體進行了介紹,他表示,在大數據時代,以圖像、視頻為代表的高通量媒體內容數據不僅規模龐大,還具有三個特點:高維度、大流量、高并發。今天的嘉賓將會針對高通量媒體內容,站在學術和工業界的角度進行分享。

  中國科學技術大學張勇東教授是第一位上臺演講的嘉賓,他的演講主題為《互聯網視頻的高效流式計算》。

  中國科學技術大學張勇東教授

  大數據處理系統可分為批量計算和流式計算,他形象地介紹了這兩種計算并探討了其差別。流式計算是指利用分布式并行化的思想和方法,對海量流式數據進行實時處理。批量計算的特點是時效性、持續性、魯棒性、高發性。

  目前面臨的問題是,視頻網站產生的數據非常多,表現出強動態、大流量、高并發的特點,傳統的計算方法難以解決現有問題。他講解了視頻流式計算研究框架,主要應用有互聯網視頻內容安全(實時發現與阻斷視頻流有害內容),互聯網視頻信息服務(視頻流在線轉播、檢索等)。

  隨后,他剖析了技術發展現狀:

  流式編解碼計算存在問題。前人研究希望通過算法簡化/動態調度解決這一問題,但算法簡化會導致視頻壓縮性能損失大,動態調度會導致并行粒度低。

  流式相似性計算。傳統方法是基于尺度空間等比固定、數據獨立分布的假設,但這存在弊端。通過哈希學習忽略了流式計算的特性。

  流式語義計算。存在的問題是視覺多義性和語義多態性強,視覺語義復雜關聯。前人試圖通過全局分類方法解決這一問題。

  針對前面的問題,相關研究如下:

  視頻流式編解碼。針對模式決策、運動估計、環路濾波都提出了新方法。他描述了基于圖優化的并行運動估計、基于概率轉移預測的并行環路濾波等,并與傳統方法進行了對比。

  視頻流式相似性計算。他談到特征提取、特征融合、特征量化、特征索引、特征度量。在數據去相關性、特征融合上,他談到數據去相關性形式化描述。

  視頻流式語義計算。一是稀疏集成學習,二是弱標注的語義深度學習。他詳細介紹了稀疏集成學習的框架圖,實驗情況,弱標注的語義深度學習模型。

  演講最后,張勇東教授對視頻流式編解碼、視頻流式相似性計算、視頻流式語義計算、視頻流式計算平臺方面的下一步的工作進行了展望。

  第二位演講嘉賓是字節跳動人工智能實驗室總監王長虎博士。開場伊始,他用一段簡短視頻對抖音進行了介紹。他總結道,抖音里的內容非常豐富和精彩,也進一步分析了抖音影響力如此大的三個因素:算法力、運營力、產品力。

  字節跳動人工智能實驗室總監王長虎博士

  他此次帶來的內容是抖音背后一系列的計算機視覺技術,包括 AI Camera 技術、人臉檢測和標定技術、人體關鍵點檢測技術、分割技術。他分別分析了抖音在這些技術上的優勢和目前面臨的挑戰。對于人臉檢測和標定技術,他們的優勢有關鍵毫秒級定位,在側臉、暗光等復雜環境下算法魯棒,這一技術的應用場景非常多,例如人臉美化,貼紙、人臉特效,眉形、美瞳、口紅等的在線試妝。

  隨后,他談到視頻推薦以及視頻理解。在視頻推薦算法中,如何優化打分函數,讓用戶獲得更好的體驗,這是值得研究的重點。視頻理解包括對視頻分類、打標簽等,面臨的挑戰有很多,如投稿量巨大、視頻持續快速增長、覆蓋范圍廣、產品影響大、算法要求高、問題種類多、樣本極不均衡、問題區域小,解決方式也有很多,如人機耦合、多重審核機制、定制化模型。

  隨后他還提到大規模視頻分類和標簽,他舉出了一些需要用技術解決的例子,如篩選出一些無意義視頻、黑屏視頻等。對于視頻中的 OCR 技術,他表示,有些問題很難,需要能精細檢測和分割。

  最后,王長虎博士總結,計算機視覺技術除了在抖音上有廣泛應用,還支撐著今日頭條、火山小視頻、西瓜視頻。他表示,計算機視覺是抖音和今日頭條很多產品的重要基石,希望更多老師和同學加入字節跳動公司。

  快手多媒體內容理解部負責人李巖是第三位上臺嘉賓,他的演講內容是《多模態內容生成與理解》。在演講中,他為大家介紹了快手是一家怎樣的公司,以及他們為什么要研究多模態內容生成與理解技術。

  快手多媒體內容理解部負責人李巖

  「即使你處在偏遠的山村,也有希望通過快手的作品獲得更多粉絲,消除孤獨感,獲得更多的連接。」李巖如是說道,他舉了幾個典型的快手視頻案例來說明。

  快手有海量多模態數據,超過 70 億條短視頻數據,超過 150 億條視頻播放數據。他強調,多模態技術有兩大應用,一是會改變人機交互方式,二是使得信息分發更加高效。但現在研究這樣的問題還非常難,存在三大挑戰,一是語義鴻溝,二是異構鴻溝(數據種類比較多),三是數據缺失(多模態數據非常難以構建)。

  他表示,快手也在一直努力,希望大家能更好地記錄,讓每個人成為自己生活的導演,希望記錄的過程能便捷、個性化、有趣、普惠。他如下幾個例子:

  自動字幕與智能配音。可以通過語音合成技術更好地滿足記錄需求,這會使記錄更加便捷和有趣。隨后他也詳述了語音識別和合成技術,也提到目前用得比較多的深度學習技術。

  音樂自動生成技術。視頻配樂相對來說還比較難。在視頻音樂生成上涉及到非常多的技術,也有一些領域知識,如歌曲結構、歌曲速度、音樂基礎要素,這可能需要研究音樂和計算機視覺的人互相配合。

  Animoji。大家可以通過快手直接在安卓手機上體驗,降低了用戶的體驗成本。目前他們的技術可以敏銳地捕捉到面部表情變化,拉低了硬件門檻。

  最后他總結到,未來會有兩個非常重要的方向:多模態特征對齊和多模態特征表示。他表達了如下三點展望:一是多模態會帶來新的人機交互方式,二是多模態會帶來新的內容形式,三是多模態急需新的算法和大型數據集。

  最后一位演講嘉賓是北航計算機學院長江學者特聘教授李波,他的演講主題為《面向公共安全的天空地網大數據一體化處理》。

  北航計算機學院長江學者特聘教授李波

  網絡世界中新型犯罪活動層出不窮,比如電信或網絡詐騙、跨境網絡攻擊等。外國軍機非法侵入我國海域,僅利用航天成像無法獲取目標的全面畫像,可以將天空地網協同應用,利用互聯網得到目標的更完整信息。

  李波教授提到利用天空網信息結合挖掘目標完整畫像的案例,也談到遙感圖像與社交媒體融合以及美國在公共安全領域的研究與應用。

  隨后,他提出了幾項關鍵科技問題:

  天空地立體感知問題:空間尺度差異大,時效性差異大,視角差異大,分辨率差異大。

  網絡內容分析問題:網絡形式多樣、使用獨立;網絡內容繁雜;用戶行為復雜,全貌模糊;行為軌跡碎片化。

  天空地網數據綜合應用問題:圖像視頻結構化描述簡單;案件涉及多維度的關聯分析,如時空關聯、因果關聯等。

  解決思路如下:

  基于時空關聯的目標與事件檢測

  在地面上,可以利用時空結合的場景語義分割;還可以通過天空地相互引導,實現立體感知。

  面向實體的跨網內容關聯

  這里涉及到基于關鍵要素的敏感內容檢測。在檢測的基礎上,可以進一步基于相似語義和時空關聯的知識學習進行知識抽取,隨后基于概念屬性的跨網身份關聯,實現跨網知識融合。

  虛實融合的一體化事件分析

  實是指物理世界,虛是指網絡世界。可以生成實體-動作元事件模型,結合警務知識指導的事件分析,進行公共安全事件研判。

  李波教授的演講結束之后迎來精彩的圓桌討論環節,快手多媒體內容理解部負責人李巖、北航計算機學院長江學者特聘教授李波、字節跳動人工智能實驗室總監王長虎、國家互聯網應急中心張冬明紛紛上臺,展開了更多對高通量媒體內容理解的探討,現場觀眾也發表踴躍提問。隨后,李波教授對今天的論壇做出總結,對在場觀眾表達了感謝。精彩的論壇就此結束,但對多媒體內容的探討還在繼續。

 
華夏博雅 版權所有 京ICP備18006398號
地址:北京市海淀區稻香湖路海淀綠地中央廣場9號樓 電話:010-66579001 傳真:010-66579002
Produced By CMS 網站群內容管理系統 publishdate:2024-10-25 10:59:22