當流行科幻小說描述“機器智能的崛起”時,它通常伴隨著激光、爆炸,或者在一些溫和的例子中,伴隨著輕微的哲學恐懼。 但毫無疑問,人們對人工智能 (AI) 和機器學習 (ML) 在現實生活中應用的可能性的興趣正在與日俱增,而且新的應用程序每天都在涌現。
全球數百萬用戶已經使用 ChatGPT、Bard 和其他 AI 界面與 AI 互動。 在印度,75% 的辦公桌員工正在使用人工智能工具來提高生產力。 但這些用戶中的大多數并沒有意識到,他們與好奇的人工智能助手進行的舒適桌面交流實際上是由世界各地的大型數據中心驅動的。
企業正在其數據中心內投資人工智能集群,構建、訓練和完善其人工智能模型,以適應其業務戰略。 這些 AI 核心由機架上的 GPU(圖形處理單元)組成,這些 GPU 提供了 AI 模型對其算法進行詳盡訓練所需的令人難以置信的并行處理能力。
導入數據集后,推理人工智能會分析該數據并理解它。 這是根據對貓而非狗共有的特征的訓練來確定圖像中是否包含貓或小狗的過程。 然后,生成人工智能可以處理該數據以創建全新的圖像或文本。
正是這種“智能”處理吸引了世界各地的人們、政府和企業的想象力,但創建有用的人工智能算法需要大量數據用于訓練目的,這是一個昂貴且耗電的過程。
高效培訓從這里開始
數據中心通常維護離散的人工智能和計算集群,它們一起處理訓練人工智能算法的數據。 這些耗電的 GPU 產生的熱量限制了給定機架空間中可以容納的 GPU 數量,因此必須優化物理布局,以減少熱量并最大限度地減少鏈路延遲。
AI集群需要新的數據中心架構。 GPU 服務器需要服務器之間有更多的連接,但由于功率和熱量限制,每個機架的服務器數量較少。 這導致我們的機架間布線比傳統數據中心更多,而銅線無法支持距離上需要 100G 到 400G 的鏈路。
人們普遍認為,在訓練大規模人工智能時,大約 30% 的所需時間消耗在網絡延遲上,其余 70% 花費在計算時間上。 由于訓練一個大型模型的成本高達 1000 萬美元,因此這段網絡時間是一筆巨大的成本。 即使節省 50 納秒或 10 米光纖的延遲也很顯著,而且 AI 集群中幾乎所有鏈路都限制在 100 米范圍內。
微調米、納秒和瓦特
運營商應仔細考慮他們將在人工智能集群中使用哪些光收發器和光纜,以最大限度地降低成本和功耗。
需要考慮的一些重要要點:
• 利用具有并行光纖的收發器來避免用于波分復用的光復用器和解復用器的需求
• 收發器成本節省遠遠抵消了多光纖電纜而非雙工光纖電纜成本的小幅增加
• 單模和多模光纖可支持長達 100 米的鏈路。 雖然多模光纖的成本略高于單模光纖,但由于電纜成本主要由 MPO 連接器控制,因此兩種多光纖電纜之間的差異較小
• 此外,高速多模收發器的功耗比單模收發器低一到兩瓦。 這看起來似乎很小,但對于人工智能集群來說,任何節省電力的機會都可以在訓練和操作期間帶來顯著的節省
收發器與有源光纜
許多 AI/ML 集群使用有源光纜 (AOC),這是一種兩端帶有集成光發射器和接收器的光纜,用于互連 GPU 和交換機。 然而,AOC 中的發射器和接收器可能與類似收發器中的相同,但通常是廢棄品。
AOC 發射器和接收器大多只需要與連接到電纜另一端的特定單元一起操作。 由于安裝人員無法接觸到光纖連接器,因此不需要清潔和檢查光纖連接器所需的技能。 此外,安裝 AOC 可能是一項耗時且精細的操作,因為它需要使用連接的收發器來布線,并且正確安裝帶分線的 AOC 尤其具有挑戰性。
總體而言,AOC 的故障率是同等收發器的兩倍。 當 AOC 發生故障,或者需要升級網絡鏈路時,必須通過網絡路由新的 AOC,這會占用計算時間。 對于收發器,光纖布線是基礎設施的一部分,并且可以保持幾代數據速率。
數據中心的人工智能和機器學習時代
人工智能/機器學習已經到來,它只會成為人們、企業和設備相互交互方式中更加重要和集成的一部分。 根據 Salesforce 的一份報告,大約 95% 的印度 IT 領導者認為生成式 AI 模型很快將在他們的組織中發揮重要作用,這表明需求不斷增長。
雖然與人工智能服務的接口實際上可以在你的手掌中發生,但它仍然依賴于大規模的數據中心基礎設施和驅動它的所有動力,而快速有效地訓練人工智能的企業將在我們快速變化的超級互聯世界中占據重要地位。仔細考慮AI集群的布線將有助于節省成本、電力和安裝時間。正確的光纖布線將使組織充分受益于人工智能。今天投資于推動人工智能培訓和運營的先進光纖基礎設施,明天將帶來令人難以置信的結果。