精品国产av一区二区三区,国产av一区二区三区,丰满少妇大乳高潮在线,9lporm自拍视频区九色

當前位置:首頁 > 最新資訊 > 行業資訊

合成數據:機器學習的未來

數據可謂是機器學習模型的命脈。不過當這種寶貴資源的訪問受到限制時會發生什么?正如很多項目和企業開始展現的那樣,這時候合成數據就算不是一種出色的選擇,也是一種可行的選擇。

什么是合成數據?

合成數據是人工生成的信息,不是通過直接測量獲得。“假”數據本質上不是新的概念或革命性的概念。它實際上是為缺少正常運行所需的可用或必要信息的模型生成測試或訓練數據的一種方法。

過去,缺少數據招致了使用隨機生成的一組數據點的便捷方法。盡管這對于教學和測試用途可能已經足夠了,但隨機數據不是您想要拿來訓練任何類型的預測模型的數據。這就是合成數據概念的不同之處,它很可靠。

合成數據本質上是一種獨特的概念,即我們可以巧妙地生成隨機化數據。故此,這種方法可以應用于更復雜的用例,而不單單是測試。

怎樣生成合成數據?

雖說生成合成數據的方式與隨機數據沒什么不同——只是通過更復雜的輸入集,但合成數據確實有不同的目的,故此有獨特的要求。

合成方法基于并僅限于預先作為輸入而饋入的某些標準。實際上,它不是隨機的。它基于一組具有特定分布和標準的樣本數據,這些標準決定了數據點的可能范圍、分布和頻次。大致說來,目的是復制真實數據以填充更大的數據集,然后該數據集將足夠龐大,便于訓練機器學習模型。

在探索用于提煉合成數據的深度學習方法時,這種方法變得特別令人關注。算法可以相互競爭,目的是在生成和識別合成數據的能力方面相互超越。實際上,這里的目的是搞一場人工軍備競賽,以生成超現實的數據。

為什么需要合成數據?

假如我們不能收集推進文明所需的寶貴資源,就會找到一種創造寶貴資源的方法。這個原則現在同樣適用于機器學習和AI的數據領域。

在訓練算法時,擁有非常大的數據樣本量至關重要,否則算法識別的模式有可能對于實際應用而言太過簡單。這實際上非常合乎邏輯。正如人類智能往往采取最容易的途徑來解決問題,訓練機器學習和AI時也經常發生同樣的情況。

比如說,不妨將這運用于對象識別算法,該算法可以從一組貓圖像中準確識別狗。假如數據量太少,AI就有可能依賴不是它試圖識別的對象的基本特征的模式。在這種情況下,AI可能仍然有效,不過遇到不遵循最初識別的模式的數據時,就會失效。

合成數據怎樣用于訓練AI?

那么,解決辦法是什么?我們畫了許多略有不同的動物,迫使網絡找到圖像的底層結構,而不單單是某些像素的位置。但不是手工繪制一百萬條狗,最好構建一個系統,專門用于繪制狗,可用于訓練分類算法——這實際上是我們在提供合成數據便于訓練機器學習時所做的事情。

然則,這種方法存在明顯的缺陷。單單憑空生成數據代表不了真實世界,故此會招致算法在遇到真實數據時很可能無法運行。解決方案是收集數據子集,分析和識別其中的趨勢和范圍,然后使用這些數據生成大量隨機數據,這些數據很可能代表我們自行收集所有數據后數據的樣子。

這也是合成數據的價值所在。我們再也不必無休止地收集數據,然后在使用之前需要清理和處理這些數據。

合成數據為何能解決日益受到關注的數據隱私問題?

全球眼下正在經歷一場非常劇烈的轉變,特別是在歐盟:隱私和所生成的數據愈來愈受到保護。在機器學習和AI領域,加強數據保護是老大難問題。受限制的數據經常正是訓練算法為最終用戶執行和提供價值所需要的數據,特別是對于B2C解決方案而言。

個人決定使用解決方案并故此批準使用他們的數據時,隱私問題通常會得到解決。這里的問題是,在您擁有提供足夠價值的解決方案、因而愿意交出個人數據之前,很難讓用戶向您提供其個人數據。故此,供應商經常會陷入先有雞還是先有蛋的困境。

合成數據就是解決方案,企業可以通過早期采用者獲得數據子集。之后,它們可以使用這些信息作為基礎,便于生成足夠的數據用于訓練機器學習和AI。這種方法可以大大減少對私有數據的費時又費錢的需求,仍可以為實際用戶開發算法。

對于醫療保健、銀行和法律等某些行業而言,合成數據提供了一種更容易訪問以前無法獲得的大量數據的方法,消除了新的和更先進的算法通常面臨的制約因素。

合成數據能否取代真實數據?

真實數據的問題在于它不是為了訓練機器學習和AI算法而生成的,它只是我們周圍發生的事件的副產品。如前所述,這顯然限制了收集數據的可用性和易用性,還限制了數據的參數和可能破壞結果的缺陷(異常值)的可能性。這就是為什么可以定制和控制的合成數據在訓練模型時更高效。

然則,盡管非常適用于訓練場景,但合成數據將不可避免地始終依賴至少一小部分真實數據用于自身的創建。所以合成數據永遠不會取代它所依賴的初始數據。更現實地說,它將大幅減少算法訓練所需的真實數據量,這個過程需要比測試多出一大截的數據——通常80%的數據用于訓練,另外20%的數據用于測試。

最后,假如處理得當,合成數據提供了一種更快捷、更有效的方式來獲取我們需要的數據,成本比從現實世界獲取數據的成本更低,同時減少了煩人的數據隱私問題。

猜你喜歡