『壹』 百度知道
為了訓練的需要,要不然會出差錯
1. 背景介紹
近些年來,隨著Siri的走紅,類似Siri、搜狗語音助手這樣利用語音實現控制,語義理解的系統開始大量涌現。而語音識別系統作為這類系統的入口,很大程度上決定了這類應用的質量。沒有一個好的語音識別系統做支撐,再好的助手也只能乾瞪眼。
與此同時,隨著微信的發展,越來越多的用戶反饋,在多種場合下不方便收聽語音,需要將語音轉換成文字。許多微信公眾號也表示需要將語音識別成文字,以便進一步的處理。在此形勢下,提高我司現有語音識別系統的准確率成為了迫切的任務。
之前主流的語音識別系統都是採用HMM-GMM技術。近些年來,隨著深度神經網路(Deep neural network)技術的的發展,越來越多的系統採用HMM-DNN技術。這項技術把描述特徵發射概率的模型從混合高斯模型(GMM)替換為深度神經網路(DNN),從而使系統的錯誤率下降了20%~30%。
2. 相關產品
當前市場上的採用DNN技術的主要競品有訊飛的相關產品,包括訊飛語音輸入法和訊飛口訊等產品、以及某互聯網公司的輸入法等。
科大訊飛是當前語音行業的領航者,在語音行業有十幾年的歷史,在Siri推出前就已經推出了訊飛語音輸入法等產品,在數據積累方面具有其他公司無法比擬的優勢。而行業內另一家互聯網公司則是聲稱國內最早將DNN技術應用到語音識別產品中的公司。
3. 技術介紹
3.1 深度神經網路
為了描述神經網路,我們先介紹最簡單的神經網路,該神經網路只由一個神經元構成,如圖1所示。
圖1 神經元
圖1所示的神經元接受3個輸入,x1,x2,x3,和一個偏置+1, 其輸出為
其中Wi 為xi在輸入中的權重。函數f(x)被稱作激活函數。
圖2. 神經網路
神經網路將許多個單一的神經元連接在一起,如圖2所示。神經網路最左邊的一層叫做輸入層,最右的一層叫做輸出層。中間節點組成的一層叫做隱藏層.
3.2 深度神經網路在聲學模型中的應用
深度神經網路則是層數較多的神經網路。雖然神經網路很早之前就已經提出,但因為計算量的問題,神經網路的層數一直無法提升。近年來隨著神經網路理論的進一步發展和計算能力的不斷提高,特別是GPU的出現,才使得深度神經網路得以發揮其威力。
圖3. 使用DNN作為聲學模型[1]
圖3說明了DNN是如何替代GMM應用到聲學模型中的。圖3中上半部分是HMM的結構,HMM的結構和轉移概率是HMM-GMM模型訓練的結果。圖3中間部分是描述了一個DNN,這個DNN模型來決定HMM的發射概率。通常情況下這個DNN模型的層數不會小於5層,每層大概數千個神經元組成。圖3中的下半部分是DNN模型的輸入,需要注意的是DNN模型的輸入是多幀特徵,而不是GMM模型中一幀。在識別語音的過程中,一小段語音都會被提取成上圖中所對應的Observation,並根據HMM中的狀態計算發射概率(也就是跟不同的發音比較相似度),選擇發射概率最大路徑作為最終的結果。
圖4. DNN聲學模型的訓練流程
圖4說明了DNN聲學模型的訓練流程。在訓練DNN模型之前,我們首先訓練出一個HMM-GMM模型來做強制對齊(forced alignment)。強制對齊的結果作為DNN訓練的樣本提交GPU上訓練DNN模型,這個過程包含了兩部分,首先是基於GPU的Pretrain,使神經網路有一個好的起點。然後使用BP演算法對神經網路進行Fine Tuning,得到最終的模型。
3.3 DNN訓練與識別系統的工程優化
DNN網路具有數據巨大的參數需要學習,每一層網路都有數百萬的參數,而下一層網路的輸入又是上一層網路的輸出,通常情況下訓練一個3.2節中所述的聲學模型需要近兩千個CPU內核運行近一個月。此外,由於聲學模型所用到的DNN較為特殊:每一層的一個神經元都依賴上一層的所有神經元,因此,如果把模型不同層次切分到不同的伺服器上分別進行訓練的話,會帶來巨大的網路開銷,使系統實際上不可用,因此我們在訓練DNN的過程中使用了GPU,並通過不斷的優化,使得訓練速度相比單台伺服器有近兩千倍的速度提高,從而使DNN模型的訓練成為現實。
此外,為了使DNN模型可以應用到線上的服務中,我們對DNN在CPU上的計算也做了優化,在幾乎不影響准確率的情況下,將計算速度提升了將近10倍。
4. 實驗結果
通過DNN模型的應用,我們語音識別系統的字錯誤率下降了40%左右,根據第三方的測試已經超過網路,並有望追上訊飛。
『貳』 放棄手工標記數據,斯坦福大學開發弱監督編程範式Snorkel
手工標記大量數據始終是開發機器學習的一大瓶頸。斯坦福AI Lab的研究人員探討了一種通過編程方式生成訓練數據的「弱監督」範式,並介紹了他們的開源Snorkel框架。
近年來,機器學習 (ML) 對現實世界的影響越來越大。這在很大程度上是由於深度學習模型的出現,使得從業者可以在基準數據集上獲得 state-of-the-art 的分數,而無需任何手工特徵設計。考慮到諸如 TensorFlow 和 PyTorch 等多種開源 ML 框架的可用性,以及大量可用的最先進的模型,可以說,高質量的 ML 模型現在幾乎成為一種商品化資源了。然而,有一個隱藏的問題:這些模型依賴於大量手工標記的訓練數據。
這些手工標記的訓練集創建起來既昂貴又耗時 —— 通常需要幾個月甚至幾年的時間、花費大量人力來收集、清理和調試 —— 尤其是在需要領域專業知識的情況下。除此之外,任務經常會在現實世界中發生變化和演變。例如,標記指南、粒度或下游用例都經常發生變化,需要重新標記 (例如,不要只將評論分類為正面或負面,還要引入一個中性類別)。
由於這些原因,從業者越來越多地轉向一種較弱的監管形式,例如利用外部知識庫、模式 / 規則或其他分類器啟發式地生成訓練數據。從本質上來講,這些都是以編程方式生成訓練數據的方法,或者更簡潔地說,編程訓練數據 (programming training data)。
在本文中,我們首先回顧了 ML 中由標記訓練數據驅動的一些領域,然後描述了我們對建模和整合各種監督源的研究。我們還討論了為大規模多任務機制構建數據管理系統的設想,這種系統使用數十或數百個弱監督的動態任務,以復雜、多樣的方式交互。
回顧:如何獲得更多有標簽的訓練數據?
ML 中的許多傳統研究方法也同樣受到對標記訓練數據的需求的推動。我們首先將這些方法與弱監督方法 (weak supervision) 區分開來:弱監督是利用來自主題領域專家(subject matter experts,簡稱 SME) 的更高級別和 / 或更嘈雜的輸入。
目前主流方法的一個關鍵問題是,由領域專家直接給大量數據加標簽是很昂貴的:例如,為醫學成像研究構建大型數據集更加困難,因為跟研究生不同,放射科醫生可不會接受一點小恩小惠就願意為你標記數據。因此,在 ML 中,許多經過深入研究的工作線都是由於獲取標記訓練數據的瓶頸所致:
在主動學習 (active learning) 中,目標是讓領域專家為估計對模型最有價值的數據點貼標簽,從而更有效地利用領域專家。在標準的監督學習設置中,這意味著選擇要標記的新數據點。例如,我們可以選擇靠近當前模型決策邊界的乳房 X 線照片,並要求放射科醫生僅給這些照片進行標記。但是,我們也可以只要求對這些數據點進行較弱的監督,在這種情況下,主動學習與弱監督是完美互補的;這方面的例子可以參考 (Druck, settle, and McCallum 2009)。
在半監督學習 (semi-supervised learning ) 設置中,我們的目標是用一個小的標記訓練集和一個更大的未標記數據集。然後使用關於平滑度、低維結構或距離度量的假設來利用未標記數據 (作為生成模型的一部分,或作為一個判別模型的正則項,或學習一個緊湊的數據表示);參考閱讀見 (Chapelle, Scholkopf, and Zien 2009)。從廣義上講,半監督學習的理念不是從 SME 那裡尋求更多輸入,而是利用領域和任務不可知的假設來利用未經標記的數據,而這些數據通常可以以低成本大量獲得。最近的方法使用生成對抗網路 (Salimans et al. 2016)、啟發式轉換模型 (Laine and Aila 2016) 和其他生成方法來有效地幫助規范化決策邊界。
在典型的遷移學習 (transfer learning )設置 中,目標是將一個或多個已經在不同數據集上訓練過的模型應用於我們的數據集和任務;相關的綜述見 (Pan 和 Yang 2010)。例如,我們可能已經有身體其他部位腫瘤的大型訓練集,並在此基礎上訓練了分類器,然後希望將其應用到我們的乳房 X 光檢查任務中。在當今的深度學習社區中,一種常見的遷移學習方法是在一個大數據集上對模型進行 「預訓練」,然後在感興趣的任務上對其進行 「微調」。另一個相關的領域是多任務學習 (multi-task learning),其中幾個任務是共同學習的 (Caruna 1993; Augenstein, Vlachos, and Maynard 2015)。
上述範例可能讓我們得以不用向領域專家合作者尋求額外的訓練標簽。然而,對某些數據進行標記是不可避免的。如果我們要求他們提供各種類型的更高級、或不那麼精確的監督形式,這些形式可以更快、更簡便地獲取,會怎麼樣呢?例如,如果我們的放射科醫生可以花一個下午的時間來標記一組啟發式的資源或其他資源,如果處理得當,這些資源可以有效地替代成千上萬的訓練標簽,那會怎麼樣呢 ?
將領域知識注入 AI
從 歷史 的角度來看,試圖 「編程」 人工智慧 (即注入領域知識) 並不是什麼新鮮想法,但現在提出這個問題的主要新穎之處在於,AI 從未像現在這樣強大,同時在可解釋性和可控制性方面,它還是一個 「黑盒」。
在 20 世紀 70 年代和 80 年代,AI 的重點是專家系統,它將來自領域專家的手工策劃的事實和規則的知識庫結合起來,並使用推理引擎來應用它們。20 世紀 90 年代,ML 開始作為將知識集成到 AI 系統的工具獲得成功,並承諾以強大而靈活的方式從標記的訓練數據自動實現這一點。
經典的 (非表示學習)ML 方法通常有兩個領域專家輸入埠。首先,這些模型通常比現代模型的復雜度要低得多,這意味著可以使用更少的手工標記數據。其次,這些模型依賴於手工設計的特性,這些特性為編碼、修改和與模型的數據基本表示形式交互提供了一種直接的方法。然而,特性工程不管在過去還是現在通常都被認為是 ML 專家的任務,他們通常會花費整個博士生涯來為特定的任務設計特性。
進入深度學習模型:由於它們具有跨許多領域和任務自動學習表示的強大能力,它們在很大程度上避免了特性工程的任務。然而,它們大部分是完整的黑盒子,除了標記大量的訓練集和調整網路架構外,普通開發人員對它們幾乎沒有控制權。在許多意義上,它們代表了舊的專家系統脆弱但易於控制的規則的對立面 —— 它們靈活但難以控制。
這使我們從一個略微不同的角度回到了最初的問題:我們如何利用我們的領域知識或任務專業知識來編寫現代深度學習模型?有沒有辦法將舊的基於規則的專家系統的直接性與這些現代 ML 方法的靈活性和強大功能結合起來?
代碼作為監督:通過編程訓練 ML
Snorkel 是我們為支持和 探索 這種與 ML 的新型交互而構建的一個系統。在 Snorkel中,我們不使用手工標記的訓練數據,而是要求用戶編寫標記函數 (labeling functions, LF),即用於標記未標記數據子集的黑盒代碼片段。
然後,我們可以使用一組這樣的 LF 來為 ML 模型標記訓練數據。因為標記函數只是任意的代碼片段,所以它們可以對任意信號進行編碼:模式、啟發式、外部數據資源、來自群眾工作者的嘈雜標簽、弱分類器等等。而且,作為代碼,我們可以獲得所有其他相關的好處,比如模塊化、可重用性和可調試性。例如,如果我們的建模目標發生了變化,我們可以調整標記函數來快速適應!
一個問題是,標記函數會產生有雜訊的輸出,這些輸出可能會重疊和沖突,從而產生不太理想的訓練標簽。在 Snorkel 中,我們使用數據編程方法對這些標簽進行去噪,該方法包括三個步驟:
1. 我們將標記函數應用於未標記的數據。
2. 我們使用一個生成模型來在沒有任何標記數據的條件下學習標記函數的准確性,並相應地對它們的輸出進行加權。我們甚至可以自動學習它們的關聯結構。
3. 生成模型輸出一組概率訓練標簽,我們可以使用這些標簽來訓練一個強大、靈活的判別模型 (如深度神經網路),它將泛化到標記函數表示的信號之外。
可以認為,這整個 pipeline 為 「編程」ML 模型提供了一種簡單、穩健且與模型無關的方法!
標記函數 (Labeling Functions)
從生物醫學文獻中提取結構化信息是最能激勵我們的應用之一:大量有用的信息被有效地鎖在數百萬篇科學論文的密集非結構化文本中。我們希望用機器學習來提取這些信息,進而使用這些信息來診斷遺傳性疾病。
考慮這樣一個任務:從科學文獻中提取某種化學 - 疾病的關系。我們可能沒有足夠大的標記訓練數據集來完成這項任務。然而,在生物醫學領域,存在著豐富的知識本體、詞典等資源,其中包括各種化學與疾病名稱數據、各種類型的已知化學 - 疾病關系資料庫等,我們可以利用這些資源來為我們的任務提供弱監督。此外,我們還可以與生物學領域的合作者一起提出一系列特定於任務的啟發式、正則表達式模式、經驗法則和負標簽生成策略。
作為一種表示載體的生成模型
在我們的方法中,我們認為標記函數隱含地描述了一個生成模型。讓我們來快速復習一下:給定數據點 x,以及我們想要預測的未知標簽 y,在判別方法中,我們直接對P(y|x) 建模,而在生成方法中,我們對 P(x,y) = P(x|y)P(y) 建模。在我們的例子中,我們建模一個訓練集標記的過程 P(L,y),其中 L 是由對象 x 的標記函數生成的標簽,y 是對應的 (未知的) 真實標簽。通過學習生成模型,並直接估計 P(L|y),我們本質上是在根據它們如何重疊和沖突來學習標記函數的相對准確性 (注意,我們不需要知道 y!)
我們使用這個估計的生成模型在標簽函數上訓練一個雜訊感知版本的最終判別模型。為了做到這一點,生成模型推斷出訓練數據的未知標簽的概率,然後我們最小化關於這些概率的判別模型的預期損失。
估計這些生成模型的參數可能非常棘手,特別是當使用的標記函數之間存在統計依賴性時。在 Data Programming: Creating Large Training Sets, Quickly(https://arxiv.org/abs/1605.07723) 這篇論文中,我們證明了給定足夠的標記函數的條件下,可以得到與監督方法相同的 asymptotic scaling。我們還研究了如何在不使用標記數據的情況下學習標記函數之間的相關性,以及如何顯著提高性能。
Snorkel:一個開源的框架
在我們最近發表的關於 Snorkel 的論文 (https://arxiv.org/abs/1711.10160) 中,我們發現在各種實際應用中,這種與現代 ML 模型交互的新方法非常有效!包括:
1. 在一個關於 Snorkel 的研討會上,我們進行了一項用戶研究,比較了教 SMEs 使用Snorkel 的效率,以及花同樣的時間進行純手工標記數據的效率。我們發現,使用Snorkel 構建模型不僅快了 2.8 倍,而且平均預測性能也提高了 45.5%。
2. 在與斯坦福大學、美國退伍軍人事務部和美國食品和葯物管理局的研究人員合作的兩個真實的文本關系提取任務,以及其他四個基準文本和圖像任務中,我們發現,與baseline 技術相比,Snorkel 平均提高了 132%。
3. 我們 探索 了如何對用戶提供的標記函數建模的新的權衡空間,從而得到了一個基於規則的優化器,用於加速迭代開發周期。
下一步:大規模多任務弱監管
我們實驗室正在進行各種努力,將 Snorkel 設想的弱監督交互模型擴展到其他模式,如格式豐富的數據和圖像、使用自然語言的監督任務和自動生成標簽函數!
在技術方面,我們感興趣的是擴展 Snorkel 的核心數據編程模型,使其更容易指定具有更高級別介面(如自然語言) 的標記函數,以及結合其他類型的弱監督 (如數據增強)。
多任務學習 (MTL) 場景的普及也引發了這樣一個問題:當嘈雜的、可能相關的標簽源現在要標記多個相關任務時會發生什麼?我們是否可以通過對這些任務進行聯合建模來獲益?我們在一個新的多任務感知版本的 Snorkel,即 Snorkel MeTaL 中解決了這些問題,它可以支持多任務弱監管源,為一個或多個相關任務提供雜訊標簽。
我們考慮的一個例子是設置具有不同粒度的標簽源。例如,假設我們打算訓練一個細粒度的命名實體識別 (NER) 模型來標記特定類型的人和位置,並且我們有一些細粒度的嘈雜標簽,例如標記 「律師」 與 「醫生」,或 「銀行」 與 「醫院」;以及有些是粗粒度的,例如標記 「人」 與 「地點」。通過將這些資源表示為標記不同層次相關的任務,我們可以聯合建模它們的准確性,並重新加權和組合它們的多任務標簽,從而創建更清晰、智能聚合的多任務訓練數據,從而提高最終 MTL 模型的性能。
我們相信,為 MTL 構建數據管理系統最激動人心的方面將圍繞大規模多任務機制(massively multi-task regime),在這種機制中,數十到數百個弱監督 (因而高度動態)的任務以復雜、多樣的方式交互。
雖然迄今為止大多數 MTL 工作都考慮最多處理由靜態手工標記訓練集定義的少數幾項任務,但世界正在迅速發展成組織 (無論是大公司、學術實驗室還是在線社區) 都要維護數以百計的弱監督、快速變化且相互依賴的建模任務。此外,由於這些任務是弱監督的,開發人員可以在數小時或數天內 (而不是數月或數年) 添加、刪除或更改任務 (即訓練集),這可能需要重新訓練整個模型。
在最近的一篇論文 The Role of Massively Multi-Task and Weak Supervision in Software 2.0 (http://cidrdb.org/cidr2019/papers/p58-ratner-cidr19.pdf) 中,我們概述了針對上述問題的一些初步想法,設想了一個大規模的多任務設置,其中 MTL 模型有效地用作一個訓練由不同開發人員弱標記的數據的中央存儲庫,然後組合在一個中央「mother」 多任務模型中。
不管確切的形式因素是什麼,很明顯,MTL 技術在未來有許多令人興奮的進展 —— 不僅是新的模型架構,而且還與遷移學習方法、新的弱監督方法、新的軟體開發和系統範例日益統一。
原文:
https://ai.stanford.e/blog/weak-supervision/
Snorkel:
http://snorkel.stanford.e/
歡迎同時關注微信公眾號: IT 科技 森
每天分享IT小技巧、 科技 數碼新聞!
『叄』 索尼發布兩款耳機:舒適降噪LinkBuds S、雙芯降噪旗艦WH-1000XM5
2022年5月19日,索尼(中國)有限公司發布兩款重磅力作,舒適入耳降噪真無線耳機LinkBuds S 和雙芯驅動旗艦降噪耳機WH-1000XM5,滿足用戶工作和生活多種需求,為聆聽生活提供更多選擇。
作為索尼史上最輕*1盈、最小巧、最舒適的入耳式降噪耳機,LinkBuds S的耳機本體重量僅約4.8g,在索尼業界盛名的降噪技術和通透的環境聲模式加持下,結合出色高解析度音質表現,新品充分詮釋了LinkBuds系列滿足用戶時時在線的產品開發理念,讓用戶得以在長時間佩戴無負擔的舒適體驗下,實現在自我世界沉浸和外界互動溝通間的自由切換。
一同 登場的索尼 頭戴式 降噪新旗艦WH-1000XM5,搭載 集成處理器 V1 、HD 降噪處理器 QN1 雙芯驅動和8顆麥克風,性能強勁,將降噪水準推進到新的高度 。同時,富有表現力的高解析度音質,高質量的通話效果,結合舒適的一體化設計和便捷的智能操控體驗,令人可以不受噪音干擾*2,徜徉沉浸於美好的聲音世界中。
索 尼舒適入耳真無線降噪耳機 LinkBuds S (左)
和雙芯驅動頭戴 旗艦降噪耳機 WH-1000XM5 (右)
隨著移動智能生活的快速發展,用戶對耳機這類穿戴設備的需求越來越個性化、多樣化。不僅需要長時間佩戴舒適,還希望專注聆聽時能免受嘈雜的環境干擾,更需要時時、快捷地響應外界。索尼憑借在音頻領域的多年耕耘和技術積累,潛心挖掘耳機的無限潛能,不斷滿足用戶的個性化、多樣化需求,讓時時陪伴你的耳機更懂你心,讓聆聽體驗更出色、更舒適。
索尼為聆聽生活帶來更多選擇
舒適入耳降噪真無線耳機, Linkbuds S讓美好一直發聲
懂你持久佩戴需求 所以降噪也要足夠舒適
從上班通勤、到下班聽音樂做運動或打 游戲 ,長時間佩戴耳機已漸漸成為大家的一種「剛需」。但是,戴上、摘下難收納,長時間佩戴又會增加耳道的壓迫感,耳機常常令現代人又愛又恨。
作為索尼最輕*1的真無線降噪耳機, Link Buds S 單耳僅重約4 . 8 克,輕盈、小巧。通過分析大量的調研數據,設計師最終推導出可以適配大部分用戶的耳腔形狀設計。親膚的高摩擦材質和結構上重心靠內的設計,使佩 戴更穩固。對 耳機重度用戶而言,長時間佩戴也舒適輕盈,輕松暢享多種應用場景 。
LinkBuds S 輕盈小巧、 佩戴舒適
業界盛名降噪技術 賦能LinkBuds S降噪、通透新體驗
為更好地提升用戶在公共或戶外環境下的聆聽體驗,迷你的 LinkBuds S 機身里還 搭載了和旗艦降噪真無線耳機W F-1000XM4 同款的新型集成處理器 V1 晶元, 並採用了SiP系統級封裝工藝,大幅減小電路板體積。它吸收並改進 了HD降噪處理器QN1e優秀的降噪性能,對環 境中的噪音生成反相聲波, 具有更強大的雜訊處理能力以及更高的降噪精度, 而且節省能量、功耗更低。 同時,Link Buds S 通過網格設計對內部麥克風進行包裹,從而有效減少風噪對聆聽的影響。
與降噪旗艦同款的新型集成處理器 V1 晶元
網格設計包裹麥克風,減少風噪
與此同時, LinkBuds S 採用 AI 自適應聲音控制功能,開啟後可自動檢測用戶的活動狀態和活動地點,識別常去的辦公室、健身房或商店等場所,自動切換預設的環境聲和降噪方案,也能手動切換20級環境聲,輕松實現多場景智能切換。無論是在獨處場合還是公共空間,索尼用黑 科技 賦能LinkBuds S耳機,用業界盛名的降噪實力讓你輕松應對各種場景,自由穿梭內外世界,時時保持在線。
LinkBuds S 支持 AI 自適應聲音控制, 也可手動切換 20 級環境聲
新品沿襲了LinkBuds系列通透的環境聲概念。開啟環境聲模式, 當你在聆聽音樂或打電話、開在線會議或玩 游戲 的同時,亦可同步留意外部的聲音,及時地感受、響應周圍環境的變化 , 無需戴上摘下,也可在 內外世界間自由穿梭。
大家津津樂道的LinkBuds,利用環形設計來傳遞通透的環境聲。 新發布的LinkBuds S的環境聲模式,則藉助強大的麥克風,通過增加對環境聲的收集量,使周圍的聲音清晰可聞,帶來宛如開放式耳機般的環境聲體驗,滿足用戶時時在線的需求。
戴著耳機 也可輕松和周圍交流
Hi-res Wireless 高解析度音質,暢 享音樂美好
為了追求更出色的音質 , 索尼從未止步。 LinkBuds S 採用 5mm 驅動單元高柔性振膜 , 低頻強勁。新品搭載集成處理器V1晶元,搭載 更優秀的放大器,更高信噪比的數模轉化器(DAC) ,呈現出更多的聲音細節,令音質表現更細膩。盡管身材迷你,憑借索尼先進的音頻硬體技術和 LDAC 藍牙傳輸技術*3*4, LinkBuds S 以 出色的三頻發揮,贏得了 Hi-Res Audio Wireless 無線小金標認證。 DSEE Extreme TM*5 (數字聲音增強引擎進階版)則通過實時提升數字音頻品質,創造出更加豐富而飽滿的聆聽體驗。
此外, 通過 Headphones Connect App*6 自由調節均衡器,用戶可以設置聽音樂時偏好的風格,也可以選擇 Clear Bass 低音增強功能,來提高聲音氛圍感和低頻彈性,在聆聽體驗上相當具有可玩性。 小身材大能量,在音質 探索 上從不妥協的索尼賦予LinkBuds S 出色的高頻,中頻和低頻表現, 讓需要時時在線的用戶,可以感受高音質的魅力。
Hi-Res Audio Wireless 金標認證 LinkBuds S 內部構成示意圖
DNN 技術護航,通話音質更清晰
在通話場景中, LinkBuds S 搭載了深度神經網路技術( DNN ),通過對海量樣本的學習,適應不同的通話場景。通過判斷通話時的不同聲音,來濾除環境雜音並保留人聲,從而獲得高清的通話音質。與此同時,新品採用雙麥克風設計,內側麥克風用於提高人聲清晰度,外側麥克風採用特別的抗風噪設計。通話或降噪時,都能夠有效削弱刺耳的風雜訊,如果在大風天邊步行邊電話,也可以輕松應對,獲得清晰的通話質量。
LinkBuds S 通話音質更清晰
智能操控 、融合互動,解鎖更多聆聽體驗
智能免摘* 7 對話功能是索尼研發的黑 科技 之一。當 APP 上開啟 「 智能免摘 」*7 功能後,用戶開口說話時, LinkBuds S 耳機就會自動暫停播放;默認情況下,對話結束 15 秒後,音樂便會恢復播放,當雙手邊忙 著來不及找出播放界面時,相當便捷。同時,耳機內置感測器可監測耳機的佩戴狀態。當耳機取下時,音樂自動暫停可有效節省電量。新升級的麥克風系統還可智能地調節聲音抓取量,讓用戶說話時可以更清晰地聽到自己的聲音,談話交流也更自然。
索尼非常注重、關愛用戶的聽力 健康 。現在Headphones Connect APP*6內新增了一種「安全聆聽」功能。用戶在APP內開啟此功能後,耳機會記錄使用耳機時的聲壓(音量級別),通過與世界衛生組織指南的數據比較,來檢查聆聽音量的安全程度。當接近或超過世衛組織推薦的聆聽限額時,將收到APP的通知,提醒用戶注意音量調節 。
Link Buds S 智能操控,更懂你
LinkBuds S 作為 LinkBuds 系列家族成員,繼續支持一鍵喚起騰訊小微* 8 語音助手功能。用戶開啟 「Quick Access」 功能後,便可自動調用QQ音樂APP來播放預先設定的內容。BRAVIA XR TM 電視和無線發射器WLA-NS7(需要另購)的用戶還可使用 LinkBuds S 享受杜比全景聲,體驗音畫同步的高品質享受。
長久續航* 9 IPX4 防水*1 0 ,助力時時在線
耳機的重度用戶對續航一般都有高要求。LinkBuds S滿電情況下,單次可使用約6小時, 加上充電盒補充續航可達約 20 小時,能基本滿足一天的日常需求。 LinkBuds S 支持快充,當使用時臨時發現電量不足, 充電5分鍾,可以使用約1小時;充電10分鍾,可以使用約90分鍾。 同時,它支持 IPX4 防水*1 0 ,未來還將支持低功耗藍牙音頻 LE Audio*11 工作、運動到 游戲 ,LinkBuds S 支持 多元豐富的日常需求,助你輕松穿梭於各個場景。
在白色和黑色之外,LinkBuds S新推出了一款淡褐色,為 時尚 潮流的用戶帶來更多穿搭選擇。
LinkBuds S 支持IP X4 防水 *10 節奏當道運動更帶感
LinkBuds S 三款配色,隨心穿搭
雙芯驅動降噪新旗艦 WH-1000XM 5 聆醇音 享靜界
雙芯驅動、8顆麥克風助攻,感受降噪旗艦中的旗艦勢能
為了締造索尼降噪中的新旗艦,索尼為 WH-1000XM5 搭載 了雙晶元以及 8 顆麥克風。外部的 6 顆麥克風會先將環境雜訊傳遞給高性能 集成處理器 V1 進行處理,處理後的數據發送給 HD 降噪處理器 QN1 ,精確生成反相曲線抵消雜訊。而 2 顆內反饋麥克風負責檢測耳道附近的殘余雜訊,經由集成處理器 V1, 再一次進行降噪處理。通過 雙芯配合,主動減少低頻雜訊,提升中高頻比如交談聲的降噪表現,使耳機的降噪性能格外出眾。 同時,新品支持 20 級可控環境聲模式和 AI 降噪,可以根據用戶的行為方式,自動切換環境聲等級 ,也 可根據用戶的佩戴情況和環境氣壓情況,自動優化降噪效果,差旅途中、出勤路上或公共空間,減少多種噪音的干擾,令人盡情沉浸*2於美妙的音樂世界中。
WH-1000XM5 採用高性能集成處理器 V1 , HD 和降噪處理器 QN1 雙晶元並搭載 8 顆麥克風
音質不妥協 體會 1000X 系列高解析度音質魅力
索尼為 WH-1000XM5 新開發了 30mm 振膜,它採用高剛性、低重量的碳纖維材料,呈現的低頻動感有力, 高頻可 高 達40kHz,為用戶帶來細節細膩、表現力豐富的三頻表現。 甚至,音頻電路都有考究的升級。 WH-1000XM5 的電路採用了新一代 Walkman NW- WM1ZM2 的技術,電路布局上針對兩個晶元優秀的 DAC 和放大器做了合理的布局優化,讓音質細節得以充分的展現。頭戴降噪耳機WH-1000XM5傳承了索尼先進的音頻硬體技術和LDAC藍牙傳輸技術*3*4,呈現出媲美有線連接的Hi-Res音質,帶來無線傳輸高音質的愉悅體驗。 DSEE ExtremeTM*5(數字聲音增強引擎進 階版)則通過實時提升數字音頻品質,創造出更加豐富而飽滿的聆聽體驗。結合索尼行 業領先的降噪技術與出色音質相融合,採用嶄新的設計語言,打造具有沉浸式的高解析度聆聽體驗。
WH-1000XM5 為用戶帶來 Hi-Res 高解析度的音質表現力
搭載DNN技術和波束成形技術,讓通話更無憂
WH-1000XM5 降噪耳機不僅擁有深度神經網路學習技術(DNN),還搭載了波束成形技術。得益於深度神經網路學習技術,耳機以優質演算法對通話時周邊雜訊精確消除,保留通話人聲;波束成形技術更是通過4個麥克風收聲,將人聲精確合成,濾除環境雜訊,削弱刺耳的風雜訊。DNN技術和波束成形技術這兩項技術珠聯璧合,讓通話質量更近一步
DNN 等技術護航,通話更清晰
嶄新的一體化設計,從內到外優化品質細節
WH-1000XM5 採用嶄新的設計語言,耳機機身整體更加簡潔,耳罩和頭梁處的皮革選取了新設計的 「 柔軟減壓型皮革 」 材質,使得佩戴更舒適。而靜音轉軸和無極滑塊的設計,在兼顧設計感的同時,也減少了因手工調節而發出的聲音干擾 。 核心技術到設計理念,索尼從內到外有機結合,優化品質細節,令用戶給可以感受聽醇音,享靜界的美妙體驗。 除此之外,收納盒可折疊,對於需要經常出差的用戶而言非常便攜。
新頭梁設計、新耳罩材質,用心只為更好體驗
智能便捷操控,越來越懂你
WH-1000XM5 保留了前代頗受好評的智能操控,讓產品更加懂你。耳機開啟智能免摘* 7 功能後,當檢測到用戶開口說話, WH-1000XM5 會 自動暫停播放內容,令對話開展更為輕松。此外, WH-1000XM5 還搭載 AI 自適應聲音控制功能,自如切換環境聲等級或開啟不同的降噪模式,新上線的 「 安全聆聽 」 將為用戶的聆聽音量保駕護航。 WH-1000XM5 也支持一鍵喚起騰訊小微* 8 語音助手,並且支持 「Quick Access」 功能。續航性能上,它為用戶帶來了嶄新快充兼容,只需另購 PD 快充頭,充電 3 分鍾,便可使用約 3 個小時*1 2 *1 3 。 開啟降噪總時長達到約 30 個小時*1 2 *1 3 ,關閉降噪續航更可長達約 40 小時*1 2 *1 3 ,使用起來更加便捷安心。
智能操控,便捷安心
採用環保材料,踐行可持續發展理念
索尼一直注重環保,主張可持續發展。這兩款新品的外包裝均採用了沒有塑料的材質,其中LinkBuds S用了綠色環保原混合材料,WH-1000XM5的包裝材料也不含塑料材質,主要由竹子、甘蔗、再生紙等綠色環保進行包裝。 在聆聽美妙音樂的同時,也可為環保繼續出一份力。
環保包裝 守護綠色地球
深刻洞察消費者的個性化、多元化需求,不斷創新突破,帶來聆聽新體驗是索尼一貫以來的堅持。索尼用 科技 的力量,讓耳機進化為智能移動生活的必需品,自由穿梭在多種場景中,讓耳朵戴得更舒適,聽得更舒服,讓聆聽體驗更美好。索尼舒適入耳真無線降噪耳機LinkBuds S和雙芯驅動旗艦頭戴式降噪耳機WH-1000XM5將於近期上市,更多產品詳情請訪問索尼中國在線商城、索尼中國官方微博、官方微信公眾號及 Sony Store 索尼直營店等渠道進行了解。
*1. 根據索尼內部測試結果,數據截止至2022年5月。
*2. 降噪功能在低頻范圍內很有效,例如飛機、火車或辦公室內(空調等附近),而對較高頻率效果相對不明顯,例如人聲。
*3. 普通的Bluetooth 指Bluetooth A2DP SBC ( 328kbps,44.1kHz ),LDAC可以根據你的無線環境選擇不同的傳輸速度。需要Bluetooth 連接的兩台設備同時具有LDAC 技術功能時, 才能實現 LDAC傳輸功能。
*4. 由於藍牙耳機的特性,區域中的電磁波千擾可能會造成連接中斷。基於無線技術的天性,當設備同時進行顯示功能和發射藍牙聲音信號時,在音頻信號和視頻信號中可能會產生「延遲〞,即聲音與畫面不同步。
*5. 通過Sony | Headphones Connect App*4 激活DSEE Extreme TM
*6. 請更新至新的 App 版本。
*7. 默認情況下,音樂會在智能免摘對話結束15秒後恢復播放。使用 Sony | Headphones Connect App*6可自定義此時間問隔。
*8. 請更新騰訊小微App至最新版本。Android 軟體 1.10.0.79版本/ios軟體1.10.0版本及以上。
*9. 使用時問可能會縮短,視編解碼器和使用狀況而定;充電時間和使用時間可能會因使用狀況而異。
*10. 從各方面防止水濺入本裝置,不包括耳機的聲音導管(聲音輸出管)、通風孔、麥克風孔(2個位置)。充電盒不支持IPX4等級防水。
*11. 該產品低功耗藍牙音頻(LE Audio)暫末實現,未來通過後續耳機軟體升級的方式實現上述功能後,用戶方可體驗。
*12. 務必使用附送的USB Type-C連接線,且充電時間和使用時間可能因使用情況而異。
*13. 需要選配USB PD電源適配器。WH-1000XM5未隨附電源適配器。
『肆』 為什麼有的深度神經網路不是端到端的
做了一些前置處理的,就不是end-to-end了。比如去噪、平滑、顯著性提取、分割、去色等等。還比如提取過特徵,將特徵作為輸入的,也不是end-to-end,比如提取個SIFT、RGB值什麼的。
將原始圖片直接作為輸入的,將物理系統需要的調節參數作為輸出的,才是端到端。(例如將車輛速度、轉角作為輸出)
『伍』 人工智慧在地震勘探中的應用新進展
隨著信息化時代到來,地震勘探正向著智能化方向發展。各個企業、科研院在地震勘探研究和應用中,都加大了對人工智慧技術(AI)地使用,通過智能化手段提高了勘探的效率和精度,取得了地球物理資源開發利用更大的成就。
為了更好的研究和開發我們生存的家園——地球,產生了一門用物理測量和數學研究的學科,這就是地球物理學。地球物理學中通過地質樣本進行直接研究的方法,稱為地探。另外一種通過儀器進行地球觀測的方法,稱為物探。在物探方法中,包括了重力、磁法、電法、地震、放射性等多種方法。其中勘探石油天然氣資源最有效的方法就是地震勘探。
地震勘探是用地下岩石彈性差異來進行地球物理勘測的方法,通過激發人工地震,研究地震波在地下傳播的規律,以查明地下地質的構造。
在國際國內地震勘探領域,隨著AI技術飛速發展,大量AI+地震勘探的研究成果不斷涌現。根據SEG最近幾年對AI技術研究成果地統計,深度學習方法已經成為主流。其中卷積神經網路模型(CNN)的研究最多,佔比60%以上,生成對抗網路模型(GAN)佔比10%左右,循環神經網路模型(RNN)佔比10%左右。其餘的研究方法還包括機器學習的演算法,如隨機森林、字典學習等等。很多論文還會結合多種方法聯合使用,達到更好的應用效果。
從應用領域來看,熱門的研究領域包括了數據預處理、構造解釋、儲層識別等領域。
1.數據預處理
數據預處理主要是實現地震道集的優化,包括了雜訊壓制、解析度提高、缺失道恢復等。
有學者提出了深度殘差網路、自編碼卷積神經網路、深度卷積神經網路等進行了隨機雜訊壓制。
還有學者通過建立多尺度信息相互彌補的網路模型,實現了地震信號的解析度提高。
2.構造解釋
在構造解釋領域的典型應用包括了斷層識別、地層識別、邊界圈定等方向。
在斷層識別方向,伍新明等教授的團隊取得了較好的成果。主要成果包括了:一是通過機器演算法生成大量人工合成的地震斷層訓練標簽。二是通過機器學習演算法檢測斷層概率、斷層傾角等屬性信息。三是改進了神經網路演算法,實現了精細化的斷層識別。
在層位解釋方向,有學者通過自編碼的卷積神經網路模型,通過半監督的檢測方法,實現了地震體層位的自動拾取。
3.儲層預測
在地層解釋方向,有學者採用無監督學習地震特徵和有監督學習標注地層相結合方式,訓練了神經網路模型,在實際資料處理中取得了較好的效果。
地震相預測是儲層預測的一個熱門方向,其中主要方法是波形分類法。波形分類法是近年來機器學習在地球物理應用中的成熟方法,使用的模型包括了卷積神經網路( CNN)、循環神經網路( RNN)、概率神經網路( PNN)、深度神經網路( DNN)、 自編碼器網路( AE)、生成對抗網路( GAN)、 K 近鄰聚類( KNN)等。
波形分類法的主要原理是抽取地震剖面數據學習地震屬性特徵,再對地震屬性進行聚類實現波形分類,最後對目標工區進行地震相的預測。現在也有使用深度神經網路模型(DNN、CNN、RNN、GAN等)直接進行波形特徵學習,並應用於地震相分類的。
比如有學者使用卷積神經網路學習了波形特徵,進行了河道、河灘等地震相分類。
地震反演是儲層預測中的一項重要工作,在這個領域涵蓋了反射系統反演、彈性參數反演、物性參數反演、工程參數反演、岩石參數反演、全波形反演、地震初至旅行反演等眾多研究方向,採用的方法包括了機器學習和深度學習各類流行的演算法模型。
比如有學者採用級聯和卷積神經網路在時間域角度反演了岩石物理參數,包括縱橫波速度、密度、孔隙度、含水飽和度等。
岩石物理分析是儲層預測中比較直接研究地質構造的一類方法,研究方向包括了對測井曲線預測和進行數字岩心的預測。
有學者運用三維卷積神經網路,通過掃描岩石標本圖像預計孔隙度和彈性參數,應用於砂岩切片預測。
雖然人工智慧技術帶來了很多革命性的變化,但是在應用過程中仍然存在一些局限性:
1.數據缺乏統一性
目前地震勘探得到的數據類型眾多,數據量也很大。但是沒有建立一套標準的數據介面,缺乏數據統一管理的模式,造成人工智慧模型的數據輸入存在限制,無法自動化、規模化的訓練模型,無法對網路模型進行持續的改進。
2.模型處理過程可視化問題
網路模型存在黑箱問題,處理過程中的結果無法供研究人員掌握。還需要考慮將智能模型計算結果與地震勘探軟體進行疊加使用,滿足復雜圖層、多次分析要求。
3.高維度復雜數據處理問題
目前的人工智慧模型對一維數字、二維圖片等數據處理比較成熟。但是對三維以上的數據處理能力尚不成熟。在地震勘探工程中,存在大量的多維數據,比如地震數據體、油氣存儲屬性數據等。一方面高維度數據造成模型構造復雜度上升,另一方面大規模數據量也會造成數據處理時間成指數倍上升。人工智慧的數據處理難題,影響了地震勘探的精細化應用分析。
4.面對不同場景的適用性問題
人工智慧模型種類眾多,在解決不同地震勘探場景時具有多解性。當使用不同的訓練集數據,應用於不同的實際場景,可能會出現不同的實際效果。確立一套科學的場景應用模型設計,實現在特定訓練場景和應用場景中得到穩定的效果輸出,這是未來研究者需要努力的方向。
相關閱讀:
如何在地震勘探研究更上一層樓?帶你一起深度學習識別斷層
怎樣輕松入門地震勘探研究:先從地震數據處理開始
深度學習地震去噪實戰:教你如何從0開啟地震深度學習科研之路
『陸』 用小波分析法除去音頻信號的雜訊
小波變換及其應用是八十年代後期發展起來的應用數學分支,被稱為「Fourier分析方法的突破性進展[1]」。 1986年Meyer Y構造了一個真正的小波基,十多年間小波分析及其應用得到了迅速發展,原則上傳統的傅里葉分析可用小波分析方法取代[2],它能對幾乎所有的常見函數空間給出通過小波展開系數的簡單刻劃,也能用小波展開系數描述函數的局部光滑性質,特別是在信號分析中,由於它的局部分析性能優越,因而在數據壓縮與邊緣檢測等方面它比現有的手段更為有效[3-8]。 小波變換在圖像壓縮中的應用因它的高壓縮比和好的恢復圖像質量而引起了廣泛的注意,且出現了各種基於小波變換的圖像壓縮方案。
小波變換自1992年Bos M等[9]首先應用於流動注射信號的處理,至今雖才8年時間,但由於小波變換其優良的分析特性而迅速滲透至分析化學信號處理的各個領域。本文介紹了小波變換的基本原理及其在分析化學中的應用情況。
1 基本原理
設f(t)為色譜信號,其小波變換在L2(R)中可表示為:
其中a, b∈R,a≠0,參數a稱為尺度因子b為時移因子,而(Wf)(b, a)稱為小波變換系數,y(t)為基本小波。在實際分析化學信號檢測中其時間是有限長度,f(t)通常以離散數據來表達,所以要採用Mallat離散演算法進行數值計算,可用下式表示:
fj+1=θj + f j
其中:N為分解起始尺度;M為分解次數;fj和qj可由下式求得:
此處:Φj, m為尺度函數;Ψj, m 為小波函數;系數Cmj ,dmj可由下式表達:
hk-2m , gk-2m取決於小波母函數的選取。
用圖表示小波分解過程如下:
圖中fN 、fN-1....fN-m和θN-1、θN-2....θN-m分別稱為在尺度N上的低頻分量和高頻分量。上述分解過程的逆過程即是信號的重構過程。
2 分析化學中的應用
根據小波變換基本原理及其優良的多分辯分析特性,本文將小波變換在分析化學信號處理中的應用劃歸為以下三個方面:
2.1 信號的濾波
小波濾波方法目前在分析化學中應用主要是小波平滑和小波去噪兩種方法。小波平滑是將某一信號先經小波分解,將在時間域上的單一信號分解為一系列不同尺度上的小波系數(也稱不同頻率上的信號), 然後選定某一截斷尺度,使高於此尺度的小波系數全部為零,再重構信號,這樣就完成了一個低通小波濾波器的設計;而小波去噪,則是在小波分解基礎上選定一閾值,對所有尺度空間的小波系數進行比較,使小於此閾值的小波系數為零,然後重構信號[10]。
邵利民[11]等首次將小波變換應用於高效液相色譜信號的濾波,他們應用了Haar小波母函數,由三次小波分解後所得的低頻部分重構色譜信號,結果成功地去除了雜訊,明顯地提高了色譜信號的信噪比,而色譜峰位保持一致,此法提高了色譜的最低檢測量和色譜峰的計算精度。董雁適[12]等提出了基於色譜信號的小波自適應濾波演算法,使濾波與雜訊的頻帶分布,強度及信噪在頻帶上的交迭程度基本無關,具有較強的魯棒性。
在光譜信號濾噪中的應用,主要為紅外光譜和紫外光譜信號濾噪方面的應用,如Bjorn K A[13]等將小波變換用於紅外光譜信號的去噪,運用6種不同的小波濾噪方法(SURE,VISU,HYBRID,MINMAX,MAD和WP)對加噪後紅外光譜圖進行了去噪,針對加噪與不加噪的譜圖,對Fourier變換、移動平均濾波與小波濾波方法作了性能比較研究,結果認為Fourier變換、移動平均濾波等標准濾波方法在信噪比很低時濾噪性能與小波濾波方法差不多,但對於高信噪比的信號用小波濾噪方法(特別是HYBRID和VISU)則更有效 。閔順耕[14]等對近紅外漫反射光譜進行了小波變換濾波。顧文良[15]等對示波計時電信號進行了濾噪處理。王立世[16]等對電泳信號也做了小波平滑和去噪,都取得了滿意的效果。鄒小勇[17]等利用小波的時頻特性去除了階躍伏安信號中的噪音,並提出了樣條小波多重濾波分析方法,即將過濾後的高頻噪音信號當成原始信號進行濾波處理,使之對有用信號進行補償。鮑倫軍等[18]將樣條小波和傅里葉變換聯用技術應用於高噪音信號的處理。另外,程翼宇[19]等將紫外光譜信號的濾噪和主成分回歸法進行了有機的結合,提出了小波基主成分回歸(PCRW)方法,改善了主成分回歸演算法。
2.1 信號小波壓縮
信號經小波分解之後,噪音信號會在高頻部分出現,而對於有用的信號分量大部分在低頻部分出現,據此可以將高頻部分小波系數中低於某一閾值的系數去除,而對其餘系數重新編碼,只保留編碼後的小波系數,這樣可大大減少數據貯存量,達到信號壓縮的目的。
在近代分析化學中分析儀器的自動化水平在不斷提高,分析儀器所提供的數據量越來越大。尋找一種不丟失有效信息的數據壓縮方法,節省數據的貯存量,或降低與分析化學信息處理有關的一些演算法的處理量,已成為人們關心的問題。Chau F T等[20]用快速小波變換對模擬和實驗所得的紫外可見光譜數據進行了壓縮,討論了不同階數的Daubechies小波基、不同的分解次數及不同的閾值對壓縮結果的影響。Barclay V J和Bonner R F[10]對實驗光譜數據作了壓縮,壓縮率可達1/2~1/10,並指出在數據平滑和濾噪的同時,也能進行數據的壓縮是小波有別與其他濾波方法的一大特點。王洪等[21]用Daubechies二階正交小波基對聚乙烯紅外光譜進行了成功的壓縮,數據可壓縮至原來的1/5以下。邵學廣等[22]對一維核磁共振譜數據作了小波變換壓縮,分別對常用的Haar、Daubechies以及Symmlet小波基作了比較,其結果表明准對稱的Symmlet小波基對數據的復原效果最佳,而且在壓縮到64倍時,均方差仍然較小。章文軍等[23]提出了常用小波變換數據壓縮的三種方法,將緊支集小波和正交三次B-樣條小波壓縮4-苯乙基鄰苯二甲酸酐的紅外光譜數據進行了對比,計算表明正交三次B-樣條小波變換方法效果較好,而在全部保留模糊信號及只保留銳化信號中數值較大的系數時,壓縮比大而重建光譜數據與原始光譜數據間的均方差較小。邵學廣等[24]將小波數據壓縮與窗口因子分析相結合,在很大程度上克服了用窗口因子分析直接處理原始信號時人工尋找最佳窗口的困難,在壓縮比高達8:1的情況下,原始信號中的有用信息幾乎沒有丟失,窗口因子分析的解析時間大為縮短。Bos M等[25]用Daubechies小波對紅外光譜數據進行壓縮,壓縮後的數據作為人工神經網路演算法的輸入接點,從而提高了人工神經網路的訓練速度,預測的效果也比直接用光譜數據訓練的要好。
2.3 小波多尺度分析
在多尺度分析方面的應用主要是對化學電信號進行小波分解,使原來單一的時域信號分解為系列不同頻率尺度下的信號,然後對這些信號進行分析研究。
小波在色譜信號處理方面的應用,主要是對重疊色譜峰的解析。邵學廣[26-27]等對苯、甲苯、乙苯三元體系色譜重疊峰信號小波變換後的某些頻率段進行放大,然後重構色譜信號,使重疊色譜峰得到了分離,定量分析結果得到了良好的線性關系。此後邵學廣[28]等利用了譜峰提取法對植物激素重疊色譜峰作了定量計算,此法表明,利用小波變換從重疊色譜信號中提取的各組分的峰高與濃度之間仍然具有良好的線性關系。
重疊伏安峰的分辨是電分析化學中一個長期存在的難題。當溶液中存在兩種或更多的電活性物質,而這些物質的氧化(或還原)電位又很靠近時,就會不可避免地出現重疊峰的現象,而給進一步的定性、定量分析帶來了很大困難。因此,人們做了較多的工作去解決這一難題。數學方法是目前處理重疊峰的重要手段,如Fourier變換去卷積以及曲線擬合。曲線擬合通常用來獲得「定量」的信息,但這種方法有較多的人為因素,重疊峰包含的峰的個數,相對強度都是靠假設得來,因而可能引入嚴重的誤差;去卷積方法則是一種頻域分析手段,但該方法需先找出一個函數來描述伏安峰,然後再根據這個函數來確定去卷積函數,因此,去卷積函數的確定是比較麻煩的,尤其是對不可逆電極過程,無法找到一個合適的函數表達式,而且該方法還需經正、反Fourier變換,比較繁瑣費時, 而小波分析的出現成了電分析化學家關注的熱點。
陳潔等[29]用DOG小波函數處理差分脈沖實驗數據,通過選擇合適的伸縮因子,成功地延長了用DPV法測定Cu2+的線性范圍。鄭建斌等[30-31]將小波變換用於示波計時電位信號的處理,在有用信息提取、重疊峰分辨等方面進行了系統的研究。王洪等[32]將小波邊緣檢測的思想用於電位滴定終點的確定,找到了一種判斷終點准確的終點判斷方法。鄭小萍等[33]將樣條小波變換技術用於分辨重疊的伏安峰,以選定的分辨因子作用於樣條小波濾波器,構造了一個小波峰分辨器,用它來直接處理重疊的伏安峰,取得了較好的分離效果,被處理重疊峰可達到完全基線分離,且峰位置和峰面積的相對誤差均較小。
對於紅外光譜圖,目前也是通過對紅外譜圖進行小波分解,以提高紅外譜圖的分辯率。陳潔[34]等對輻射合成的丙烯醯胺、丙烯酸鈉共聚物水凝膠的紅外光譜信號經小波處理後,使其特徵吸收帶較好地得到分離,成功地提高了紅外光譜圖的解析度。謝啟桃[35]等對不同晶型聚丙烯紅外光譜圖作了小波變換,也得到了可用以區分聚丙烯a、b兩晶型的紅外光譜圖。
3 展望
小波變換由於其優良的局部分析能力,使其在分析化學信號的濾噪、數據壓縮和譜峰的分離方面得到了很好的應用。本人通過對小波變換在化學中應用的探索,認為對於分析化學中各種電信號的平滑、濾波還有待作更深入的研究,以設計出更為合理有效的小波濾波器,以消除由於平滑而導至的尖銳信號的峰高及峰面積的變化或由於去噪而帶來的尖銳信號附近的不應有的小峰的出現;對於重疊峰的分離及其定量計算,還應該探討如色譜峰基線的確定方法以及待分離頻率段的倍乘系數的確定方法;另外對於色譜峰的保留指數定性問題,由於不同化合物在某一確定的分析條件下有可能會出現保留值相同的情況,這將使在未知樣中加標準的峰高疊加法定性或外部標准物對照定性變得困難,我們是否可能對色譜峰進行小波分解,然後在不同的尺度上對其進行考察,以尋求色譜峰的小波定性方法,這可能是個可以進一步研究的問題。
小波變換將在分析化學領域得到更加廣泛的應用,特別對於分析化學中的多元定量分析法,如多元線性回歸法(MLR),主成分回歸法(PCR),偏最小二乘法(PLS)等方法及人工神經網路(ANN)將會同小波變換進行有機的結合,以消除各種雜訊干擾對定量分析的影響;或對相關數據進行壓縮以減少待分析數據的冗餘,提高分析精度和大大減少計算量提高分析速度。小波變換將會成為分析化學中定量和定性分析的一種非常重要的工具。
『柒』 地震去噪新探索(二)——無監督卷積神經網路調優實戰
「心中有歌,到處都是舞台」。
自從投入了自編碼的深度學習研究後,一路走來就是磕磕碰碰。
上一篇將地震信號用在了自編碼卷積神經網路降噪(見《地震去噪新探索——無監督卷積神經網路實戰》),結果那叫一個慘。如下面的圖示,上邊是雜訊圖,下邊是去噪圖:
從去噪效果來看,僅能獲取到一些支離破碎的有效信號,這是一張完全拿不出手的效果圖。
卷積神經網路不是更能學習到特徵細節,性能更好嗎?為啥我做出來的效果如此之慘?
前期的參數設置包括:使用10000個28*28的訓練小塊,訓練epoch:5,學習率:0.001,優化器:tf.train.AdamOptimizer(learn).minimize(cost),LOSS函數:tf.nn.sigmoid_cross_entropy_with_logits(labels=targets_, logits=logits_),cost = tf.rece_mean(loss)
網路結構圖為:
訓練損失曲線:
1.歸一化的優化
慘不忍睹的LOSS訓練結果引起了我的注意。將收斂失敗這個問題拿到網上去尋找答案,有大神說這是歸一化沒做好。
那就先進行2項優化:
一是控制訓練樣本的取值范圍到(-1,1),使用方法是原值除以最大值的方法,就像這樣:
noisy_imgs=noisy_imgs/abs(noisy_imgs).max()
二是在訓練網路的每個卷積後增加BN,就像這樣:
conv1 = tf.layers.conv2d(inputs_, 64, (3,3), padding='same', activation=tf.nn.relu)
conv1 = tf.layers.batch_normalization(conv1, training=True)
再進行訓練,效果不明顯,還是沒有收斂。
另外,很多歸一化的方法是將取值范圍集中在(0,1),使用這樣的演算法:
imgs= (imgs-imgs.min())/(imgs.max()-imgs.min())#歸一化到[0,1]
結果證明對於地震數據完全沒法訓練,曲線是這樣的:
2.學習函數的調整
「一計不成,再生一計」。
我想到了對優化器和LOSS函數進行改動。
在神經網路學習中,損失函數的作用是度量神經網路的輸出的預測值,計算與實際值之間的差距,可以說是實現學習的關鍵函數。常見的損失函數包括:最小二乘損失函數、交叉熵損失函數、回歸中使用的smooth L1損失函數等。
而優化函數的原理是:把損失值從神經網路的最外層傳遞到最前面,實現反向傳播學習,這是神經網路實現持續學習達到收斂的關鍵。如最基礎的梯度下降演算法包括:隨機梯度下降演算法,批量梯度下降演算法,帶動量的梯度下降演算法,Adagrad,Adadelta,Adam等。
那我就先從優化器函數入手吧。
既然學習率為0.001無法收斂,那試試0.0001呢。結果還真收斂了,如下圖:
那預測效果如何呢?結果是一塌糊塗,連基本特徵都學習不到,如下圖:
這是怎麼回事呢?我的理解是學習率太高,就會讓神經網路學習到更細粒度的特徵,而失去了我們想要的特徵。就相當於研究一個人的特徵,我們通常是從五官、體型等方面來看,但如果從細胞的角度的去學習,那就無法還原人的外貌特徵了。
另外,設置為0.0005也好不了多少。
那改動LOSS函數能不能起作用呢?
比如改為softmax_cross_entropy_with_logits,像這樣:
loss = tf.nn.softmax_cross_entropy_with_logits(labels=targets_, logits=logits_)
結果是無法學習,如下圖:
3.其它的嘗試
兩板斧過去,還沒有看到變好的跡象。我沒有放棄,我開始思考為啥原程序訓練Mnist效果都如此好,換到地震數據訓練就不行了呢?
我想到了訓練樣本數據是不是有問題。我又進行了以下嘗試:
一是調整訓練樣本數據的尺寸:有128*128,40*40,32*32,28*28等。
二是對樣本數據進行截斷:地震數據不是異常值多,偏離度大嗎。我就篩選數據集中的90%區間,區間外面的進行截斷,再進行歸一化。這樣數據分布就均勻多了。
三是擴充采樣數據來源,從不同的數據源采樣。是不是數據更豐富,訓練效果就會改觀呢?
……
你可以想像做這些實驗有多麼瑣碎和繁雜,然而現實卻是如此的無情。最後結局都是一個——失敗,根本拿不出一個像樣的效果,連一個較為清晰的結果都沒有。
「山窮水復疑無路,柳暗花明又一村」。
在持續N天被現實按在地上摩擦後,我痛定思痛:到底解決的方向在哪裡?
在現有這個無可救葯的神經網路中,提高學習率可以收斂,但是無法學習到有效特徵。降低學習率可以學習到有效特徵但是無法收斂,也就是說無法持續優化的學習。整個成了一個悖論。
面對這張醜陋的預測結果圖,我意識到可能是網路結構本身出了問題。很有可能是網路對圖片數據學習有效,對地震數據學習就是不行。
在翻閱了其它研究者的論文後,我逐步聚焦到了一個結構——解碼。我的程序在這部分是使用卷積核上采樣的結構。像這樣:
conv4 = tf.image.resize_nearest_neighbor(conv3, (8,8))
conv4 = tf.layers.conv2d(conv4, 32, (3,3), padding='same', activation=tf.nn.relu)
而其它地震論文結構卻包含了一個我沒有的結構——反卷積。
如果我也使用反卷積,甚至就只有卷積和反卷積這種最簡單的自編碼結構,效果如何呢?像這樣的結構:
x = Conv2D(32, (3, 3), activation='relu', padding='same')(input_img)
x = Conv2D(32, (3, 3), activation='relu', padding='same')(x)
x = Conv2DTranspose(32, (3,3), padding='same', activation='relu', kernel_initializer='glorot_normal')(x)#反卷積
x = Conv2DTranspose(32, (3,3), padding='same', activation='relu', kernel_initializer='glorot_normal')(x)
decoded = Conv2DTranspose(1, (1,1), padding='same', activation='tanh', kernel_initializer='glorot_normal')(x)
結果是令人驚艷的。下圖是收斂的效果,很快就能夠收斂:
訓練的效果更好。以下分別是原圖,雜訊圖和去噪效果圖:
可以看到,上面雜訊幾乎淹沒了有效信號。然後通過訓練,僅僅5個迭代,就較好的分離出了有效信號。
「既然選擇了遠方 便只顧風雨兼程」。
看來反卷積是是解決地震學習的一把鑰匙。下一步我將研究反卷積能適應地震處理的原因,然後繼續進行優化和創新,並使用其它演算法做對比實驗,爭取做出更好的效果。
如果喜歡請點「贊」,如果小夥伴對程序感興趣,可以聯系我獲取。