‘壹’ 百度知道
为了训练的需要,要不然会出差错
1. 背景介绍
近些年来,随着Siri的走红,类似Siri、搜狗语音助手这样利用语音实现控制,语义理解的系统开始大量涌现。而语音识别系统作为这类系统的入口,很大程度上决定了这类应用的质量。没有一个好的语音识别系统做支撑,再好的助手也只能干瞪眼。
与此同时,随着微信的发展,越来越多的用户反馈,在多种场合下不方便收听语音,需要将语音转换成文字。许多微信公众号也表示需要将语音识别成文字,以便进一步的处理。在此形势下,提高我司现有语音识别系统的准确率成为了迫切的任务。
之前主流的语音识别系统都是采用HMM-GMM技术。近些年来,随着深度神经网络(Deep neural network)技术的的发展,越来越多的系统采用HMM-DNN技术。这项技术把描述特征发射概率的模型从混合高斯模型(GMM)替换为深度神经网络(DNN),从而使系统的错误率下降了20%~30%。
2. 相关产品
当前市场上的采用DNN技术的主要竞品有讯飞的相关产品,包括讯飞语音输入法和讯飞口讯等产品、以及某互联网公司的输入法等。
科大讯飞是当前语音行业的领航者,在语音行业有十几年的历史,在Siri推出前就已经推出了讯飞语音输入法等产品,在数据积累方面具有其他公司无法比拟的优势。而行业内另一家互联网公司则是声称国内最早将DNN技术应用到语音识别产品中的公司。
3. 技术介绍
3.1 深度神经网络
为了描述神经网络,我们先介绍最简单的神经网络,该神经网络只由一个神经元构成,如图1所示。
图1 神经元
图1所示的神经元接受3个输入,x1,x2,x3,和一个偏置+1, 其输出为
其中Wi 为xi在输入中的权重。函数f(x)被称作激活函数。
图2. 神经网络
神经网络将许多个单一的神经元连接在一起,如图2所示。神经网络最左边的一层叫做输入层,最右的一层叫做输出层。中间节点组成的一层叫做隐藏层.
3.2 深度神经网络在声学模型中的应用
深度神经网络则是层数较多的神经网络。虽然神经网络很早之前就已经提出,但因为计算量的问题,神经网络的层数一直无法提升。近年来随着神经网络理论的进一步发展和计算能力的不断提高,特别是GPU的出现,才使得深度神经网络得以发挥其威力。
图3. 使用DNN作为声学模型[1]
图3说明了DNN是如何替代GMM应用到声学模型中的。图3中上半部分是HMM的结构,HMM的结构和转移概率是HMM-GMM模型训练的结果。图3中间部分是描述了一个DNN,这个DNN模型来决定HMM的发射概率。通常情况下这个DNN模型的层数不会小于5层,每层大概数千个神经元组成。图3中的下半部分是DNN模型的输入,需要注意的是DNN模型的输入是多帧特征,而不是GMM模型中一帧。在识别语音的过程中,一小段语音都会被提取成上图中所对应的Observation,并根据HMM中的状态计算发射概率(也就是跟不同的发音比较相似度),选择发射概率最大路径作为最终的结果。
图4. DNN声学模型的训练流程
图4说明了DNN声学模型的训练流程。在训练DNN模型之前,我们首先训练出一个HMM-GMM模型来做强制对齐(forced alignment)。强制对齐的结果作为DNN训练的样本提交GPU上训练DNN模型,这个过程包含了两部分,首先是基于GPU的Pretrain,使神经网络有一个好的起点。然后使用BP算法对神经网络进行Fine Tuning,得到最终的模型。
3.3 DNN训练与识别系统的工程优化
DNN网络具有数据巨大的参数需要学习,每一层网络都有数百万的参数,而下一层网络的输入又是上一层网络的输出,通常情况下训练一个3.2节中所述的声学模型需要近两千个CPU内核运行近一个月。此外,由于声学模型所用到的DNN较为特殊:每一层的一个神经元都依赖上一层的所有神经元,因此,如果把模型不同层次切分到不同的服务器上分别进行训练的话,会带来巨大的网络开销,使系统实际上不可用,因此我们在训练DNN的过程中使用了GPU,并通过不断的优化,使得训练速度相比单台服务器有近两千倍的速度提高,从而使DNN模型的训练成为现实。
此外,为了使DNN模型可以应用到线上的服务中,我们对DNN在CPU上的计算也做了优化,在几乎不影响准确率的情况下,将计算速度提升了将近10倍。
4. 实验结果
通过DNN模型的应用,我们语音识别系统的字错误率下降了40%左右,根据第三方的测试已经超过网络,并有望追上讯飞。
‘贰’ 放弃手工标记数据,斯坦福大学开发弱监督编程范式Snorkel
手工标记大量数据始终是开发机器学习的一大瓶颈。斯坦福AI Lab的研究人员探讨了一种通过编程方式生成训练数据的“弱监督”范式,并介绍了他们的开源Snorkel框架。
近年来,机器学习 (ML) 对现实世界的影响越来越大。这在很大程度上是由于深度学习模型的出现,使得从业者可以在基准数据集上获得 state-of-the-art 的分数,而无需任何手工特征设计。考虑到诸如 TensorFlow 和 PyTorch 等多种开源 ML 框架的可用性,以及大量可用的最先进的模型,可以说,高质量的 ML 模型现在几乎成为一种商品化资源了。然而,有一个隐藏的问题:这些模型依赖于大量手工标记的训练数据。
这些手工标记的训练集创建起来既昂贵又耗时 —— 通常需要几个月甚至几年的时间、花费大量人力来收集、清理和调试 —— 尤其是在需要领域专业知识的情况下。除此之外,任务经常会在现实世界中发生变化和演变。例如,标记指南、粒度或下游用例都经常发生变化,需要重新标记 (例如,不要只将评论分类为正面或负面,还要引入一个中性类别)。
由于这些原因,从业者越来越多地转向一种较弱的监管形式,例如利用外部知识库、模式 / 规则或其他分类器启发式地生成训练数据。从本质上来讲,这些都是以编程方式生成训练数据的方法,或者更简洁地说,编程训练数据 (programming training data)。
在本文中,我们首先回顾了 ML 中由标记训练数据驱动的一些领域,然后描述了我们对建模和整合各种监督源的研究。我们还讨论了为大规模多任务机制构建数据管理系统的设想,这种系统使用数十或数百个弱监督的动态任务,以复杂、多样的方式交互。
回顾:如何获得更多有标签的训练数据?
ML 中的许多传统研究方法也同样受到对标记训练数据的需求的推动。我们首先将这些方法与弱监督方法 (weak supervision) 区分开来:弱监督是利用来自主题领域专家(subject matter experts,简称 SME) 的更高级别和 / 或更嘈杂的输入。
目前主流方法的一个关键问题是,由领域专家直接给大量数据加标签是很昂贵的:例如,为医学成像研究构建大型数据集更加困难,因为跟研究生不同,放射科医生可不会接受一点小恩小惠就愿意为你标记数据。因此,在 ML 中,许多经过深入研究的工作线都是由于获取标记训练数据的瓶颈所致:
在主动学习 (active learning) 中,目标是让领域专家为估计对模型最有价值的数据点贴标签,从而更有效地利用领域专家。在标准的监督学习设置中,这意味着选择要标记的新数据点。例如,我们可以选择靠近当前模型决策边界的乳房 X 线照片,并要求放射科医生仅给这些照片进行标记。但是,我们也可以只要求对这些数据点进行较弱的监督,在这种情况下,主动学习与弱监督是完美互补的;这方面的例子可以参考 (Druck, settle, and McCallum 2009)。
在半监督学习 (semi-supervised learning ) 设置中,我们的目标是用一个小的标记训练集和一个更大的未标记数据集。然后使用关于平滑度、低维结构或距离度量的假设来利用未标记数据 (作为生成模型的一部分,或作为一个判别模型的正则项,或学习一个紧凑的数据表示);参考阅读见 (Chapelle, Scholkopf, and Zien 2009)。从广义上讲,半监督学习的理念不是从 SME 那里寻求更多输入,而是利用领域和任务不可知的假设来利用未经标记的数据,而这些数据通常可以以低成本大量获得。最近的方法使用生成对抗网络 (Salimans et al. 2016)、启发式转换模型 (Laine and Aila 2016) 和其他生成方法来有效地帮助规范化决策边界。
在典型的迁移学习 (transfer learning )设置 中,目标是将一个或多个已经在不同数据集上训练过的模型应用于我们的数据集和任务;相关的综述见 (Pan 和 Yang 2010)。例如,我们可能已经有身体其他部位肿瘤的大型训练集,并在此基础上训练了分类器,然后希望将其应用到我们的乳房 X 光检查任务中。在当今的深度学习社区中,一种常见的迁移学习方法是在一个大数据集上对模型进行 “预训练”,然后在感兴趣的任务上对其进行 “微调”。另一个相关的领域是多任务学习 (multi-task learning),其中几个任务是共同学习的 (Caruna 1993; Augenstein, Vlachos, and Maynard 2015)。
上述范例可能让我们得以不用向领域专家合作者寻求额外的训练标签。然而,对某些数据进行标记是不可避免的。如果我们要求他们提供各种类型的更高级、或不那么精确的监督形式,这些形式可以更快、更简便地获取,会怎么样呢?例如,如果我们的放射科医生可以花一个下午的时间来标记一组启发式的资源或其他资源,如果处理得当,这些资源可以有效地替代成千上万的训练标签,那会怎么样呢 ?
将领域知识注入 AI
从 历史 的角度来看,试图 “编程” 人工智能 (即注入领域知识) 并不是什么新鲜想法,但现在提出这个问题的主要新颖之处在于,AI 从未像现在这样强大,同时在可解释性和可控制性方面,它还是一个 “黑盒”。
在 20 世纪 70 年代和 80 年代,AI 的重点是专家系统,它将来自领域专家的手工策划的事实和规则的知识库结合起来,并使用推理引擎来应用它们。20 世纪 90 年代,ML 开始作为将知识集成到 AI 系统的工具获得成功,并承诺以强大而灵活的方式从标记的训练数据自动实现这一点。
经典的 (非表示学习)ML 方法通常有两个领域专家输入端口。首先,这些模型通常比现代模型的复杂度要低得多,这意味着可以使用更少的手工标记数据。其次,这些模型依赖于手工设计的特性,这些特性为编码、修改和与模型的数据基本表示形式交互提供了一种直接的方法。然而,特性工程不管在过去还是现在通常都被认为是 ML 专家的任务,他们通常会花费整个博士生涯来为特定的任务设计特性。
进入深度学习模型:由于它们具有跨许多领域和任务自动学习表示的强大能力,它们在很大程度上避免了特性工程的任务。然而,它们大部分是完整的黑盒子,除了标记大量的训练集和调整网络架构外,普通开发人员对它们几乎没有控制权。在许多意义上,它们代表了旧的专家系统脆弱但易于控制的规则的对立面 —— 它们灵活但难以控制。
这使我们从一个略微不同的角度回到了最初的问题:我们如何利用我们的领域知识或任务专业知识来编写现代深度学习模型?有没有办法将旧的基于规则的专家系统的直接性与这些现代 ML 方法的灵活性和强大功能结合起来?
代码作为监督:通过编程训练 ML
Snorkel 是我们为支持和 探索 这种与 ML 的新型交互而构建的一个系统。在 Snorkel中,我们不使用手工标记的训练数据,而是要求用户编写标记函数 (labeling functions, LF),即用于标记未标记数据子集的黑盒代码片段。
然后,我们可以使用一组这样的 LF 来为 ML 模型标记训练数据。因为标记函数只是任意的代码片段,所以它们可以对任意信号进行编码:模式、启发式、外部数据资源、来自群众工作者的嘈杂标签、弱分类器等等。而且,作为代码,我们可以获得所有其他相关的好处,比如模块化、可重用性和可调试性。例如,如果我们的建模目标发生了变化,我们可以调整标记函数来快速适应!
一个问题是,标记函数会产生有噪声的输出,这些输出可能会重叠和冲突,从而产生不太理想的训练标签。在 Snorkel 中,我们使用数据编程方法对这些标签进行去噪,该方法包括三个步骤:
1. 我们将标记函数应用于未标记的数据。
2. 我们使用一个生成模型来在没有任何标记数据的条件下学习标记函数的准确性,并相应地对它们的输出进行加权。我们甚至可以自动学习它们的关联结构。
3. 生成模型输出一组概率训练标签,我们可以使用这些标签来训练一个强大、灵活的判别模型 (如深度神经网络),它将泛化到标记函数表示的信号之外。
可以认为,这整个 pipeline 为 “编程”ML 模型提供了一种简单、稳健且与模型无关的方法!
标记函数 (Labeling Functions)
从生物医学文献中提取结构化信息是最能激励我们的应用之一:大量有用的信息被有效地锁在数百万篇科学论文的密集非结构化文本中。我们希望用机器学习来提取这些信息,进而使用这些信息来诊断遗传性疾病。
考虑这样一个任务:从科学文献中提取某种化学 - 疾病的关系。我们可能没有足够大的标记训练数据集来完成这项任务。然而,在生物医学领域,存在着丰富的知识本体、词典等资源,其中包括各种化学与疾病名称数据、各种类型的已知化学 - 疾病关系数据库等,我们可以利用这些资源来为我们的任务提供弱监督。此外,我们还可以与生物学领域的合作者一起提出一系列特定于任务的启发式、正则表达式模式、经验法则和负标签生成策略。
作为一种表示载体的生成模型
在我们的方法中,我们认为标记函数隐含地描述了一个生成模型。让我们来快速复习一下:给定数据点 x,以及我们想要预测的未知标签 y,在判别方法中,我们直接对P(y|x) 建模,而在生成方法中,我们对 P(x,y) = P(x|y)P(y) 建模。在我们的例子中,我们建模一个训练集标记的过程 P(L,y),其中 L 是由对象 x 的标记函数生成的标签,y 是对应的 (未知的) 真实标签。通过学习生成模型,并直接估计 P(L|y),我们本质上是在根据它们如何重叠和冲突来学习标记函数的相对准确性 (注意,我们不需要知道 y!)
我们使用这个估计的生成模型在标签函数上训练一个噪声感知版本的最终判别模型。为了做到这一点,生成模型推断出训练数据的未知标签的概率,然后我们最小化关于这些概率的判别模型的预期损失。
估计这些生成模型的参数可能非常棘手,特别是当使用的标记函数之间存在统计依赖性时。在 Data Programming: Creating Large Training Sets, Quickly(https://arxiv.org/abs/1605.07723) 这篇论文中,我们证明了给定足够的标记函数的条件下,可以得到与监督方法相同的 asymptotic scaling。我们还研究了如何在不使用标记数据的情况下学习标记函数之间的相关性,以及如何显着提高性能。
Snorkel:一个开源的框架
在我们最近发表的关于 Snorkel 的论文 (https://arxiv.org/abs/1711.10160) 中,我们发现在各种实际应用中,这种与现代 ML 模型交互的新方法非常有效!包括:
1. 在一个关于 Snorkel 的研讨会上,我们进行了一项用户研究,比较了教 SMEs 使用Snorkel 的效率,以及花同样的时间进行纯手工标记数据的效率。我们发现,使用Snorkel 构建模型不仅快了 2.8 倍,而且平均预测性能也提高了 45.5%。
2. 在与斯坦福大学、美国退伍军人事务部和美国食品和药物管理局的研究人员合作的两个真实的文本关系提取任务,以及其他四个基准文本和图像任务中,我们发现,与baseline 技术相比,Snorkel 平均提高了 132%。
3. 我们 探索 了如何对用户提供的标记函数建模的新的权衡空间,从而得到了一个基于规则的优化器,用于加速迭代开发周期。
下一步:大规模多任务弱监管
我们实验室正在进行各种努力,将 Snorkel 设想的弱监督交互模型扩展到其他模式,如格式丰富的数据和图像、使用自然语言的监督任务和自动生成标签函数!
在技术方面,我们感兴趣的是扩展 Snorkel 的核心数据编程模型,使其更容易指定具有更高级别接口(如自然语言) 的标记函数,以及结合其他类型的弱监督 (如数据增强)。
多任务学习 (MTL) 场景的普及也引发了这样一个问题:当嘈杂的、可能相关的标签源现在要标记多个相关任务时会发生什么?我们是否可以通过对这些任务进行联合建模来获益?我们在一个新的多任务感知版本的 Snorkel,即 Snorkel MeTaL 中解决了这些问题,它可以支持多任务弱监管源,为一个或多个相关任务提供噪声标签。
我们考虑的一个例子是设置具有不同粒度的标签源。例如,假设我们打算训练一个细粒度的命名实体识别 (NER) 模型来标记特定类型的人和位置,并且我们有一些细粒度的嘈杂标签,例如标记 “律师” 与 “医生”,或 “银行” 与 “医院”;以及有些是粗粒度的,例如标记 “人” 与 “地点”。通过将这些资源表示为标记不同层次相关的任务,我们可以联合建模它们的准确性,并重新加权和组合它们的多任务标签,从而创建更清晰、智能聚合的多任务训练数据,从而提高最终 MTL 模型的性能。
我们相信,为 MTL 构建数据管理系统最激动人心的方面将围绕大规模多任务机制(massively multi-task regime),在这种机制中,数十到数百个弱监督 (因而高度动态)的任务以复杂、多样的方式交互。
虽然迄今为止大多数 MTL 工作都考虑最多处理由静态手工标记训练集定义的少数几项任务,但世界正在迅速发展成组织 (无论是大公司、学术实验室还是在线社区) 都要维护数以百计的弱监督、快速变化且相互依赖的建模任务。此外,由于这些任务是弱监督的,开发人员可以在数小时或数天内 (而不是数月或数年) 添加、删除或更改任务 (即训练集),这可能需要重新训练整个模型。
在最近的一篇论文 The Role of Massively Multi-Task and Weak Supervision in Software 2.0 (http://cidrdb.org/cidr2019/papers/p58-ratner-cidr19.pdf) 中,我们概述了针对上述问题的一些初步想法,设想了一个大规模的多任务设置,其中 MTL 模型有效地用作一个训练由不同开发人员弱标记的数据的中央存储库,然后组合在一个中央“mother” 多任务模型中。
不管确切的形式因素是什么,很明显,MTL 技术在未来有许多令人兴奋的进展 —— 不仅是新的模型架构,而且还与迁移学习方法、新的弱监督方法、新的软件开发和系统范例日益统一。
原文:
https://ai.stanford.e/blog/weak-supervision/
Snorkel:
http://snorkel.stanford.e/
欢迎同时关注微信公众号: IT 科技 森
每天分享IT小技巧、 科技 数码新闻!
‘叁’ 索尼发布两款耳机:舒适降噪LinkBuds S、双芯降噪旗舰WH-1000XM5
2022年5月19日,索尼(中国)有限公司发布两款重磅力作,舒适入耳降噪真无线耳机LinkBuds S 和双芯驱动旗舰降噪耳机WH-1000XM5,满足用户工作和生活多种需求,为聆听生活提供更多选择。
作为索尼史上最轻*1盈、最小巧、最舒适的入耳式降噪耳机,LinkBuds S的耳机本体重量仅约4.8g,在索尼业界盛名的降噪技术和通透的环境声模式加持下,结合出色高分辨率音质表现,新品充分诠释了LinkBuds系列满足用户时时在线的产品开发理念,让用户得以在长时间佩戴无负担的舒适体验下,实现在自我世界沉浸和外界互动沟通间的自由切换。
一同 登场的索尼 头戴式 降噪新旗舰WH-1000XM5,搭载 集成处理器 V1 、HD 降噪处理器 QN1 双芯驱动和8颗麦克风,性能强劲,将降噪水准推进到新的高度 。同时,富有表现力的高分辨率音质,高质量的通话效果,结合舒适的一体化设计和便捷的智能操控体验,令人可以不受噪音干扰*2,徜徉沉浸于美好的声音世界中。
索 尼舒适入耳真无线降噪耳机 LinkBuds S (左)
和双芯驱动头戴 旗舰降噪耳机 WH-1000XM5 (右)
随着移动智能生活的快速发展,用户对耳机这类穿戴设备的需求越来越个性化、多样化。不仅需要长时间佩戴舒适,还希望专注聆听时能免受嘈杂的环境干扰,更需要时时、快捷地响应外界。索尼凭借在音频领域的多年耕耘和技术积累,潜心挖掘耳机的无限潜能,不断满足用户的个性化、多样化需求,让时时陪伴你的耳机更懂你心,让聆听体验更出色、更舒适。
索尼为聆听生活带来更多选择
舒适入耳降噪真无线耳机, Linkbuds S让美好一直发声
懂你持久佩戴需求 所以降噪也要足够舒适
从上班通勤、到下班听音乐做运动或打 游戏 ,长时间佩戴耳机已渐渐成为大家的一种“刚需”。但是,戴上、摘下难收纳,长时间佩戴又会增加耳道的压迫感,耳机常常令现代人又爱又恨。
作为索尼最轻*1的真无线降噪耳机, Link Buds S 单耳仅重约4 . 8 克,轻盈、小巧。通过分析大量的调研数据,设计师最终推导出可以适配大部分用户的耳腔形状设计。亲肤的高摩擦材质和结构上重心靠内的设计,使佩 戴更稳固。对 耳机重度用户而言,长时间佩戴也舒适轻盈,轻松畅享多种应用场景 。
LinkBuds S 轻盈小巧、 佩戴舒适
业界盛名降噪技术 赋能LinkBuds S降噪、通透新体验
为更好地提升用户在公共或户外环境下的聆听体验,迷你的 LinkBuds S 机身里还 搭载了和旗舰降噪真无线耳机W F-1000XM4 同款的新型集成处理器 V1 芯片, 并采用了SiP系统级封装工艺,大幅减小电路板体积。它吸收并改进 了HD降噪处理器QN1e优秀的降噪性能,对环 境中的噪音生成反相声波, 具有更强大的噪声处理能力以及更高的降噪精度, 而且节省能量、功耗更低。 同时,Link Buds S 通过网格设计对内部麦克风进行包裹,从而有效减少风噪对聆听的影响。
与降噪旗舰同款的新型集成处理器 V1 芯片
网格设计包裹麦克风,减少风噪
与此同时, LinkBuds S 采用 AI 自适应声音控制功能,开启后可自动检测用户的活动状态和活动地点,识别常去的办公室、健身房或商店等场所,自动切换预设的环境声和降噪方案,也能手动切换20级环境声,轻松实现多场景智能切换。无论是在独处场合还是公共空间,索尼用黑 科技 赋能LinkBuds S耳机,用业界盛名的降噪实力让你轻松应对各种场景,自由穿梭内外世界,时时保持在线。
LinkBuds S 支持 AI 自适应声音控制, 也可手动切换 20 级环境声
新品沿袭了LinkBuds系列通透的环境声概念。开启环境声模式, 当你在聆听音乐或打电话、开在线会议或玩 游戏 的同时,亦可同步留意外部的声音,及时地感受、响应周围环境的变化 , 无需戴上摘下,也可在 内外世界间自由穿梭。
大家津津乐道的LinkBuds,利用环形设计来传递通透的环境声。 新发布的LinkBuds S的环境声模式,则借助强大的麦克风,通过增加对环境声的收集量,使周围的声音清晰可闻,带来宛如开放式耳机般的环境声体验,满足用户时时在线的需求。
戴着耳机 也可轻松和周围交流
Hi-res Wireless 高分辨率音质,畅 享音乐美好
为了追求更出色的音质 , 索尼从未止步。 LinkBuds S 采用 5mm 驱动单元高柔性振膜 , 低频强劲。新品搭载集成处理器V1芯片,搭载 更优秀的放大器,更高信噪比的数模转化器(DAC) ,呈现出更多的声音细节,令音质表现更细腻。尽管身材迷你,凭借索尼先进的音频硬件技术和 LDAC 蓝牙传输技术*3*4, LinkBuds S 以 出色的三频发挥,赢得了 Hi-Res Audio Wireless 无线小金标认证。 DSEE Extreme TM*5 (数字声音增强引擎进阶版)则通过实时提升数字音频品质,创造出更加丰富而饱满的聆听体验。
此外, 通过 Headphones Connect App*6 自由调节均衡器,用户可以设置听音乐时偏好的风格,也可以选择 Clear Bass 低音增强功能,来提高声音氛围感和低频弹性,在聆听体验上相当具有可玩性。 小身材大能量,在音质 探索 上从不妥协的索尼赋予LinkBuds S 出色的高频,中频和低频表现, 让需要时时在线的用户,可以感受高音质的魅力。
Hi-Res Audio Wireless 金标认证 LinkBuds S 内部构成示意图
DNN 技术护航,通话音质更清晰
在通话场景中, LinkBuds S 搭载了深度神经网络技术( DNN ),通过对海量样本的学习,适应不同的通话场景。通过判断通话时的不同声音,来滤除环境杂音并保留人声,从而获得高清的通话音质。与此同时,新品采用双麦克风设计,内侧麦克风用于提高人声清晰度,外侧麦克风采用特别的抗风噪设计。通话或降噪时,都能够有效削弱刺耳的风噪声,如果在大风天边步行边电话,也可以轻松应对,获得清晰的通话质量。
LinkBuds S 通话音质更清晰
智能操控 、融合互动,解锁更多聆听体验
智能免摘* 7 对话功能是索尼研发的黑 科技 之一。当 APP 上开启 “ 智能免摘 ”*7 功能后,用户开口说话时, LinkBuds S 耳机就会自动暂停播放;默认情况下,对话结束 15 秒后,音乐便会恢复播放,当双手边忙 着来不及找出播放界面时,相当便捷。同时,耳机内置传感器可监测耳机的佩戴状态。当耳机取下时,音乐自动暂停可有效节省电量。新升级的麦克风系统还可智能地调节声音抓取量,让用户说话时可以更清晰地听到自己的声音,谈话交流也更自然。
索尼非常注重、关爱用户的听力 健康 。现在Headphones Connect APP*6内新增了一种“安全聆听”功能。用户在APP内开启此功能后,耳机会记录使用耳机时的声压(音量级别),通过与世界卫生组织指南的数据比较,来检查聆听音量的安全程度。当接近或超过世卫组织推荐的聆听限额时,将收到APP的通知,提醒用户注意音量调节 。
Link Buds S 智能操控,更懂你
LinkBuds S 作为 LinkBuds 系列家族成员,继续支持一键唤起腾讯小微* 8 语音助手功能。用户开启 “Quick Access” 功能后,便可自动调用QQ音乐APP来播放预先设定的内容。BRAVIA XR TM 电视和无线发射器WLA-NS7(需要另购)的用户还可使用 LinkBuds S 享受杜比全景声,体验音画同步的高品质享受。
长久续航* 9 IPX4 防水*1 0 ,助力时时在线
耳机的重度用户对续航一般都有高要求。LinkBuds S满电情况下,单次可使用约6小时, 加上充电盒补充续航可达约 20 小时,能基本满足一天的日常需求。 LinkBuds S 支持快充,当使用时临时发现电量不足, 充电5分钟,可以使用约1小时;充电10分钟,可以使用约90分钟。 同时,它支持 IPX4 防水*1 0 ,未来还将支持低功耗蓝牙音频 LE Audio*11 工作、运动到 游戏 ,LinkBuds S 支持 多元丰富的日常需求,助你轻松穿梭于各个场景。
在白色和黑色之外,LinkBuds S新推出了一款淡褐色,为 时尚 潮流的用户带来更多穿搭选择。
LinkBuds S 支持IP X4 防水 *10 节奏当道运动更带感
LinkBuds S 三款配色,随心穿搭
双芯驱动降噪新旗舰 WH-1000XM 5 聆醇音 享静界
双芯驱动、8颗麦克风助攻,感受降噪旗舰中的旗舰势能
为了缔造索尼降噪中的新旗舰,索尼为 WH-1000XM5 搭载 了双芯片以及 8 颗麦克风。外部的 6 颗麦克风会先将环境噪声传递给高性能 集成处理器 V1 进行处理,处理后的数据发送给 HD 降噪处理器 QN1 ,精确生成反相曲线抵消噪声。而 2 颗内反馈麦克风负责检测耳道附近的残余噪声,经由集成处理器 V1, 再一次进行降噪处理。通过 双芯配合,主动减少低频噪声,提升中高频比如交谈声的降噪表现,使耳机的降噪性能格外出众。 同时,新品支持 20 级可控环境声模式和 AI 降噪,可以根据用户的行为方式,自动切换环境声等级 ,也 可根据用户的佩戴情况和环境气压情况,自动优化降噪效果,差旅途中、出勤路上或公共空间,减少多种噪音的干扰,令人尽情沉浸*2于美妙的音乐世界中。
WH-1000XM5 采用高性能集成处理器 V1 , HD 和降噪处理器 QN1 双芯片并搭载 8 颗麦克风
音质不妥协 体会 1000X 系列高分辨率音质魅力
索尼为 WH-1000XM5 新开发了 30mm 振膜,它采用高刚性、低重量的碳纤维材料,呈现的低频动感有力, 高频可 高 达40kHz,为用户带来细节细腻、表现力丰富的三频表现。 甚至,音频电路都有考究的升级。 WH-1000XM5 的电路采用了新一代 Walkman NW- WM1ZM2 的技术,电路布局上针对两个芯片优秀的 DAC 和放大器做了合理的布局优化,让音质细节得以充分的展现。头戴降噪耳机WH-1000XM5传承了索尼先进的音频硬件技术和LDAC蓝牙传输技术*3*4,呈现出媲美有线连接的Hi-Res音质,带来无线传输高音质的愉悦体验。 DSEE ExtremeTM*5(数字声音增强引擎进 阶版)则通过实时提升数字音频品质,创造出更加丰富而饱满的聆听体验。结合索尼行 业领先的降噪技术与出色音质相融合,采用崭新的设计语言,打造具有沉浸式的高分辨率聆听体验。
WH-1000XM5 为用户带来 Hi-Res 高分辨率的音质表现力
搭载DNN技术和波束成形技术,让通话更无忧
WH-1000XM5 降噪耳机不仅拥有深度神经网络学习技术(DNN),还搭载了波束成形技术。得益于深度神经网络学习技术,耳机以优质算法对通话时周边噪声精确消除,保留通话人声;波束成形技术更是通过4个麦克风收声,将人声精确合成,滤除环境噪声,削弱刺耳的风噪声。DNN技术和波束成形技术这两项技术珠联璧合,让通话质量更近一步
DNN 等技术护航,通话更清晰
崭新的一体化设计,从内到外优化品质细节
WH-1000XM5 采用崭新的设计语言,耳机机身整体更加简洁,耳罩和头梁处的皮革选取了新设计的 “ 柔软减压型皮革 ” 材质,使得佩戴更舒适。而静音转轴和无极滑块的设计,在兼顾设计感的同时,也减少了因手工调节而发出的声音干扰 。 核心技术到设计理念,索尼从内到外有机结合,优化品质细节,令用户给可以感受听醇音,享静界的美妙体验。 除此之外,收纳盒可折叠,对于需要经常出差的用户而言非常便携。
新头梁设计、新耳罩材质,用心只为更好体验
智能便捷操控,越来越懂你
WH-1000XM5 保留了前代颇受好评的智能操控,让产品更加懂你。耳机开启智能免摘* 7 功能后,当检测到用户开口说话, WH-1000XM5 会 自动暂停播放内容,令对话开展更为轻松。此外, WH-1000XM5 还搭载 AI 自适应声音控制功能,自如切换环境声等级或开启不同的降噪模式,新上线的 “ 安全聆听 ” 将为用户的聆听音量保驾护航。 WH-1000XM5 也支持一键唤起腾讯小微* 8 语音助手,并且支持 “Quick Access” 功能。续航性能上,它为用户带来了崭新快充兼容,只需另购 PD 快充头,充电 3 分钟,便可使用约 3 个小时*1 2 *1 3 。 开启降噪总时长达到约 30 个小时*1 2 *1 3 ,关闭降噪续航更可长达约 40 小时*1 2 *1 3 ,使用起来更加便捷安心。
智能操控,便捷安心
采用环保材料,践行可持续发展理念
索尼一直注重环保,主张可持续发展。这两款新品的外包装均采用了没有塑料的材质,其中LinkBuds S用了绿色环保原混合材料,WH-1000XM5的包装材料也不含塑料材质,主要由竹子、甘蔗、再生纸等绿色环保进行包装。 在聆听美妙音乐的同时,也可为环保继续出一份力。
环保包装 守护绿色地球
深刻洞察消费者的个性化、多元化需求,不断创新突破,带来聆听新体验是索尼一贯以来的坚持。索尼用 科技 的力量,让耳机进化为智能移动生活的必需品,自由穿梭在多种场景中,让耳朵戴得更舒适,听得更舒服,让聆听体验更美好。索尼舒适入耳真无线降噪耳机LinkBuds S和双芯驱动旗舰头戴式降噪耳机WH-1000XM5将于近期上市,更多产品详情请访问索尼中国在线商城、索尼中国官方微博、官方微信公众号及 Sony Store 索尼直营店等渠道进行了解。
*1. 根据索尼内部测试结果,数据截止至2022年5月。
*2. 降噪功能在低频范围内很有效,例如飞机、火车或办公室内(空调等附近),而对较高频率效果相对不明显,例如人声。
*3. 普通的Bluetooth 指Bluetooth A2DP SBC ( 328kbps,44.1kHz ),LDAC可以根据你的无线环境选择不同的传输速度。需要Bluetooth 连接的两台设备同时具有LDAC 技术功能时, 才能实现 LDAC传输功能。
*4. 由于蓝牙耳机的特性,区域中的电磁波千扰可能会造成连接中断。基于无线技术的天性,当设备同时进行显示功能和发射蓝牙声音信号时,在音频信号和视频信号中可能会产生“延迟〞,即声音与画面不同步。
*5. 通过Sony | Headphones Connect App*4 激活DSEE Extreme TM
*6. 请更新至新的 App 版本。
*7. 默认情况下,音乐会在智能免摘对话结束15秒后恢复播放。使用 Sony | Headphones Connect App*6可自定义此时间问隔。
*8. 请更新腾讯小微App至最新版本。Android 软件 1.10.0.79版本/ios软件1.10.0版本及以上。
*9. 使用时问可能会缩短,视编解码器和使用状况而定;充电时间和使用时间可能会因使用状况而异。
*10. 从各方面防止水溅入本装置,不包括耳机的声音导管(声音输出管)、通风孔、麦克风孔(2个位置)。充电盒不支持IPX4等级防水。
*11. 该产品低功耗蓝牙音频(LE Audio)暂末实现,未来通过后续耳机软件升级的方式实现上述功能后,用户方可体验。
*12. 务必使用附送的USB Type-C连接线,且充电时间和使用时间可能因使用情况而异。
*13. 需要选配USB PD电源适配器。WH-1000XM5未随附电源适配器。
‘肆’ 为什么有的深度神经网络不是端到端的
做了一些前置处理的,就不是end-to-end了。比如去噪、平滑、显着性提取、分割、去色等等。还比如提取过特征,将特征作为输入的,也不是end-to-end,比如提取个SIFT、RGB值什么的。
将原始图片直接作为输入的,将物理系统需要的调节参数作为输出的,才是端到端。(例如将车辆速度、转角作为输出)
‘伍’ 人工智能在地震勘探中的应用新进展
随着信息化时代到来,地震勘探正向着智能化方向发展。各个企业、科研院在地震勘探研究和应用中,都加大了对人工智能技术(AI)地使用,通过智能化手段提高了勘探的效率和精度,取得了地球物理资源开发利用更大的成就。
为了更好的研究和开发我们生存的家园——地球,产生了一门用物理测量和数学研究的学科,这就是地球物理学。地球物理学中通过地质样本进行直接研究的方法,称为地探。另外一种通过仪器进行地球观测的方法,称为物探。在物探方法中,包括了重力、磁法、电法、地震、放射性等多种方法。其中勘探石油天然气资源最有效的方法就是地震勘探。
地震勘探是用地下岩石弹性差异来进行地球物理勘测的方法,通过激发人工地震,研究地震波在地下传播的规律,以查明地下地质的构造。
在国际国内地震勘探领域,随着AI技术飞速发展,大量AI+地震勘探的研究成果不断涌现。根据SEG最近几年对AI技术研究成果地统计,深度学习方法已经成为主流。其中卷积神经网络模型(CNN)的研究最多,占比60%以上,生成对抗网络模型(GAN)占比10%左右,循环神经网络模型(RNN)占比10%左右。其余的研究方法还包括机器学习的算法,如随机森林、字典学习等等。很多论文还会结合多种方法联合使用,达到更好的应用效果。
从应用领域来看,热门的研究领域包括了数据预处理、构造解释、储层识别等领域。
1.数据预处理
数据预处理主要是实现地震道集的优化,包括了噪声压制、分辨率提高、缺失道恢复等。
有学者提出了深度残差网络、自编码卷积神经网络、深度卷积神经网络等进行了随机噪声压制。
还有学者通过建立多尺度信息相互弥补的网络模型,实现了地震信号的分辨率提高。
2.构造解释
在构造解释领域的典型应用包括了断层识别、地层识别、边界圈定等方向。
在断层识别方向,伍新明等教授的团队取得了较好的成果。主要成果包括了:一是通过机器算法生成大量人工合成的地震断层训练标签。二是通过机器学习算法检测断层概率、断层倾角等属性信息。三是改进了神经网络算法,实现了精细化的断层识别。
在层位解释方向,有学者通过自编码的卷积神经网络模型,通过半监督的检测方法,实现了地震体层位的自动拾取。
3.储层预测
在地层解释方向,有学者采用无监督学习地震特征和有监督学习标注地层相结合方式,训练了神经网络模型,在实际资料处理中取得了较好的效果。
地震相预测是储层预测的一个热门方向,其中主要方法是波形分类法。波形分类法是近年来机器学习在地球物理应用中的成熟方法,使用的模型包括了卷积神经网络( CNN)、循环神经网络( RNN)、概率神经网络( PNN)、深度神经网络( DNN)、 自编码器网络( AE)、生成对抗网络( GAN)、 K 近邻聚类( KNN)等。
波形分类法的主要原理是抽取地震剖面数据学习地震属性特征,再对地震属性进行聚类实现波形分类,最后对目标工区进行地震相的预测。现在也有使用深度神经网络模型(DNN、CNN、RNN、GAN等)直接进行波形特征学习,并应用于地震相分类的。
比如有学者使用卷积神经网络学习了波形特征,进行了河道、河滩等地震相分类。
地震反演是储层预测中的一项重要工作,在这个领域涵盖了反射系统反演、弹性参数反演、物性参数反演、工程参数反演、岩石参数反演、全波形反演、地震初至旅行反演等众多研究方向,采用的方法包括了机器学习和深度学习各类流行的算法模型。
比如有学者采用级联和卷积神经网络在时间域角度反演了岩石物理参数,包括纵横波速度、密度、孔隙度、含水饱和度等。
岩石物理分析是储层预测中比较直接研究地质构造的一类方法,研究方向包括了对测井曲线预测和进行数字岩心的预测。
有学者运用三维卷积神经网络,通过扫描岩石标本图像预计孔隙度和弹性参数,应用于砂岩切片预测。
虽然人工智能技术带来了很多革命性的变化,但是在应用过程中仍然存在一些局限性:
1.数据缺乏统一性
目前地震勘探得到的数据类型众多,数据量也很大。但是没有建立一套标准的数据接口,缺乏数据统一管理的模式,造成人工智能模型的数据输入存在限制,无法自动化、规模化的训练模型,无法对网络模型进行持续的改进。
2.模型处理过程可视化问题
网络模型存在黑箱问题,处理过程中的结果无法供研究人员掌握。还需要考虑将智能模型计算结果与地震勘探软件进行叠加使用,满足复杂图层、多次分析要求。
3.高维度复杂数据处理问题
目前的人工智能模型对一维数字、二维图片等数据处理比较成熟。但是对三维以上的数据处理能力尚不成熟。在地震勘探工程中,存在大量的多维数据,比如地震数据体、油气存储属性数据等。一方面高维度数据造成模型构造复杂度上升,另一方面大规模数据量也会造成数据处理时间成指数倍上升。人工智能的数据处理难题,影响了地震勘探的精细化应用分析。
4.面对不同场景的适用性问题
人工智能模型种类众多,在解决不同地震勘探场景时具有多解性。当使用不同的训练集数据,应用于不同的实际场景,可能会出现不同的实际效果。确立一套科学的场景应用模型设计,实现在特定训练场景和应用场景中得到稳定的效果输出,这是未来研究者需要努力的方向。
相关阅读:
如何在地震勘探研究更上一层楼?带你一起深度学习识别断层
怎样轻松入门地震勘探研究:先从地震数据处理开始
深度学习地震去噪实战:教你如何从0开启地震深度学习科研之路
‘陆’ 用小波分析法除去音频信号的噪声
小波变换及其应用是八十年代后期发展起来的应用数学分支,被称为“Fourier分析方法的突破性进展[1]”。 1986年Meyer Y构造了一个真正的小波基,十多年间小波分析及其应用得到了迅速发展,原则上传统的傅里叶分析可用小波分析方法取代[2],它能对几乎所有的常见函数空间给出通过小波展开系数的简单刻划,也能用小波展开系数描述函数的局部光滑性质,特别是在信号分析中,由于它的局部分析性能优越,因而在数据压缩与边缘检测等方面它比现有的手段更为有效[3-8]。 小波变换在图像压缩中的应用因它的高压缩比和好的恢复图像质量而引起了广泛的注意,且出现了各种基于小波变换的图像压缩方案。
小波变换自1992年Bos M等[9]首先应用于流动注射信号的处理,至今虽才8年时间,但由于小波变换其优良的分析特性而迅速渗透至分析化学信号处理的各个领域。本文介绍了小波变换的基本原理及其在分析化学中的应用情况。
1 基本原理
设f(t)为色谱信号,其小波变换在L2(R)中可表示为:
其中a, b∈R,a≠0,参数a称为尺度因子b为时移因子,而(Wf)(b, a)称为小波变换系数,y(t)为基本小波。在实际分析化学信号检测中其时间是有限长度,f(t)通常以离散数据来表达,所以要采用Mallat离散算法进行数值计算,可用下式表示:
fj+1=θj + f j
其中:N为分解起始尺度;M为分解次数;fj和qj可由下式求得:
此处:Φj, m为尺度函数;Ψj, m 为小波函数;系数Cmj ,dmj可由下式表达:
hk-2m , gk-2m取决于小波母函数的选取。
用图表示小波分解过程如下:
图中fN 、fN-1....fN-m和θN-1、θN-2....θN-m分别称为在尺度N上的低频分量和高频分量。上述分解过程的逆过程即是信号的重构过程。
2 分析化学中的应用
根据小波变换基本原理及其优良的多分辩分析特性,本文将小波变换在分析化学信号处理中的应用划归为以下三个方面:
2.1 信号的滤波
小波滤波方法目前在分析化学中应用主要是小波平滑和小波去噪两种方法。小波平滑是将某一信号先经小波分解,将在时间域上的单一信号分解为一系列不同尺度上的小波系数(也称不同频率上的信号), 然后选定某一截断尺度,使高于此尺度的小波系数全部为零,再重构信号,这样就完成了一个低通小波滤波器的设计;而小波去噪,则是在小波分解基础上选定一阈值,对所有尺度空间的小波系数进行比较,使小于此阈值的小波系数为零,然后重构信号[10]。
邵利民[11]等首次将小波变换应用于高效液相色谱信号的滤波,他们应用了Haar小波母函数,由三次小波分解后所得的低频部分重构色谱信号,结果成功地去除了噪声,明显地提高了色谱信号的信噪比,而色谱峰位保持一致,此法提高了色谱的最低检测量和色谱峰的计算精度。董雁适[12]等提出了基于色谱信号的小波自适应滤波算法,使滤波与噪声的频带分布,强度及信噪在频带上的交迭程度基本无关,具有较强的鲁棒性。
在光谱信号滤噪中的应用,主要为红外光谱和紫外光谱信号滤噪方面的应用,如Bjorn K A[13]等将小波变换用于红外光谱信号的去噪,运用6种不同的小波滤噪方法(SURE,VISU,HYBRID,MINMAX,MAD和WP)对加噪后红外光谱图进行了去噪,针对加噪与不加噪的谱图,对Fourier变换、移动平均滤波与小波滤波方法作了性能比较研究,结果认为Fourier变换、移动平均滤波等标准滤波方法在信噪比很低时滤噪性能与小波滤波方法差不多,但对于高信噪比的信号用小波滤噪方法(特别是HYBRID和VISU)则更有效 。闵顺耕[14]等对近红外漫反射光谱进行了小波变换滤波。顾文良[15]等对示波计时电信号进行了滤噪处理。王立世[16]等对电泳信号也做了小波平滑和去噪,都取得了满意的效果。邹小勇[17]等利用小波的时频特性去除了阶跃伏安信号中的噪音,并提出了样条小波多重滤波分析方法,即将过滤后的高频噪音信号当成原始信号进行滤波处理,使之对有用信号进行补偿。鲍伦军等[18]将样条小波和傅里叶变换联用技术应用于高噪音信号的处理。另外,程翼宇[19]等将紫外光谱信号的滤噪和主成分回归法进行了有机的结合,提出了小波基主成分回归(PCRW)方法,改善了主成分回归算法。
2.1 信号小波压缩
信号经小波分解之后,噪音信号会在高频部分出现,而对于有用的信号分量大部分在低频部分出现,据此可以将高频部分小波系数中低于某一阈值的系数去除,而对其余系数重新编码,只保留编码后的小波系数,这样可大大减少数据贮存量,达到信号压缩的目的。
在近代分析化学中分析仪器的自动化水平在不断提高,分析仪器所提供的数据量越来越大。寻找一种不丢失有效信息的数据压缩方法,节省数据的贮存量,或降低与分析化学信息处理有关的一些算法的处理量,已成为人们关心的问题。Chau F T等[20]用快速小波变换对模拟和实验所得的紫外可见光谱数据进行了压缩,讨论了不同阶数的Daubechies小波基、不同的分解次数及不同的阈值对压缩结果的影响。Barclay V J和Bonner R F[10]对实验光谱数据作了压缩,压缩率可达1/2~1/10,并指出在数据平滑和滤噪的同时,也能进行数据的压缩是小波有别与其他滤波方法的一大特点。王洪等[21]用Daubechies二阶正交小波基对聚乙烯红外光谱进行了成功的压缩,数据可压缩至原来的1/5以下。邵学广等[22]对一维核磁共振谱数据作了小波变换压缩,分别对常用的Haar、Daubechies以及Symmlet小波基作了比较,其结果表明准对称的Symmlet小波基对数据的复原效果最佳,而且在压缩到64倍时,均方差仍然较小。章文军等[23]提出了常用小波变换数据压缩的三种方法,将紧支集小波和正交三次B-样条小波压缩4-苯乙基邻苯二甲酸酐的红外光谱数据进行了对比,计算表明正交三次B-样条小波变换方法效果较好,而在全部保留模糊信号及只保留锐化信号中数值较大的系数时,压缩比大而重建光谱数据与原始光谱数据间的均方差较小。邵学广等[24]将小波数据压缩与窗口因子分析相结合,在很大程度上克服了用窗口因子分析直接处理原始信号时人工寻找最佳窗口的困难,在压缩比高达8:1的情况下,原始信号中的有用信息几乎没有丢失,窗口因子分析的解析时间大为缩短。Bos M等[25]用Daubechies小波对红外光谱数据进行压缩,压缩后的数据作为人工神经网络算法的输入接点,从而提高了人工神经网络的训练速度,预测的效果也比直接用光谱数据训练的要好。
2.3 小波多尺度分析
在多尺度分析方面的应用主要是对化学电信号进行小波分解,使原来单一的时域信号分解为系列不同频率尺度下的信号,然后对这些信号进行分析研究。
小波在色谱信号处理方面的应用,主要是对重叠色谱峰的解析。邵学广[26-27]等对苯、甲苯、乙苯三元体系色谱重叠峰信号小波变换后的某些频率段进行放大,然后重构色谱信号,使重叠色谱峰得到了分离,定量分析结果得到了良好的线性关系。此后邵学广[28]等利用了谱峰提取法对植物激素重叠色谱峰作了定量计算,此法表明,利用小波变换从重叠色谱信号中提取的各组分的峰高与浓度之间仍然具有良好的线性关系。
重叠伏安峰的分辨是电分析化学中一个长期存在的难题。当溶液中存在两种或更多的电活性物质,而这些物质的氧化(或还原)电位又很靠近时,就会不可避免地出现重叠峰的现象,而给进一步的定性、定量分析带来了很大困难。因此,人们做了较多的工作去解决这一难题。数学方法是目前处理重叠峰的重要手段,如Fourier变换去卷积以及曲线拟合。曲线拟合通常用来获得“定量”的信息,但这种方法有较多的人为因素,重叠峰包含的峰的个数,相对强度都是靠假设得来,因而可能引入严重的误差;去卷积方法则是一种频域分析手段,但该方法需先找出一个函数来描述伏安峰,然后再根据这个函数来确定去卷积函数,因此,去卷积函数的确定是比较麻烦的,尤其是对不可逆电极过程,无法找到一个合适的函数表达式,而且该方法还需经正、反Fourier变换,比较繁琐费时, 而小波分析的出现成了电分析化学家关注的热点。
陈洁等[29]用DOG小波函数处理差分脉冲实验数据,通过选择合适的伸缩因子,成功地延长了用DPV法测定Cu2+的线性范围。郑建斌等[30-31]将小波变换用于示波计时电位信号的处理,在有用信息提取、重叠峰分辨等方面进行了系统的研究。王洪等[32]将小波边缘检测的思想用于电位滴定终点的确定,找到了一种判断终点准确的终点判断方法。郑小萍等[33]将样条小波变换技术用于分辨重叠的伏安峰,以选定的分辨因子作用于样条小波滤波器,构造了一个小波峰分辨器,用它来直接处理重叠的伏安峰,取得了较好的分离效果,被处理重叠峰可达到完全基线分离,且峰位置和峰面积的相对误差均较小。
对于红外光谱图,目前也是通过对红外谱图进行小波分解,以提高红外谱图的分辩率。陈洁[34]等对辐射合成的丙烯酰胺、丙烯酸钠共聚物水凝胶的红外光谱信号经小波处理后,使其特征吸收带较好地得到分离,成功地提高了红外光谱图的分辨率。谢启桃[35]等对不同晶型聚丙烯红外光谱图作了小波变换,也得到了可用以区分聚丙烯a、b两晶型的红外光谱图。
3 展望
小波变换由于其优良的局部分析能力,使其在分析化学信号的滤噪、数据压缩和谱峰的分离方面得到了很好的应用。本人通过对小波变换在化学中应用的探索,认为对于分析化学中各种电信号的平滑、滤波还有待作更深入的研究,以设计出更为合理有效的小波滤波器,以消除由于平滑而导至的尖锐信号的峰高及峰面积的变化或由于去噪而带来的尖锐信号附近的不应有的小峰的出现;对于重叠峰的分离及其定量计算,还应该探讨如色谱峰基线的确定方法以及待分离频率段的倍乘系数的确定方法;另外对于色谱峰的保留指数定性问题,由于不同化合物在某一确定的分析条件下有可能会出现保留值相同的情况,这将使在未知样中加标准的峰高叠加法定性或外部标准物对照定性变得困难,我们是否可能对色谱峰进行小波分解,然后在不同的尺度上对其进行考察,以寻求色谱峰的小波定性方法,这可能是个可以进一步研究的问题。
小波变换将在分析化学领域得到更加广泛的应用,特别对于分析化学中的多元定量分析法,如多元线性回归法(MLR),主成分回归法(PCR),偏最小二乘法(PLS)等方法及人工神经网络(ANN)将会同小波变换进行有机的结合,以消除各种噪声干扰对定量分析的影响;或对相关数据进行压缩以减少待分析数据的冗余,提高分析精度和大大减少计算量提高分析速度。小波变换将会成为分析化学中定量和定性分析的一种非常重要的工具。
‘柒’ 地震去噪新探索(二)——无监督卷积神经网络调优实战
“心中有歌,到处都是舞台”。
自从投入了自编码的深度学习研究后,一路走来就是磕磕碰碰。
上一篇将地震信号用在了自编码卷积神经网络降噪(见《地震去噪新探索——无监督卷积神经网络实战》),结果那叫一个惨。如下面的图示,上边是噪声图,下边是去噪图:
从去噪效果来看,仅能获取到一些支离破碎的有效信号,这是一张完全拿不出手的效果图。
卷积神经网络不是更能学习到特征细节,性能更好吗?为啥我做出来的效果如此之惨?
前期的参数设置包括:使用10000个28*28的训练小块,训练epoch:5,学习率:0.001,优化器:tf.train.AdamOptimizer(learn).minimize(cost),LOSS函数:tf.nn.sigmoid_cross_entropy_with_logits(labels=targets_, logits=logits_),cost = tf.rece_mean(loss)
网络结构图为:
训练损失曲线:
1.归一化的优化
惨不忍睹的LOSS训练结果引起了我的注意。将收敛失败这个问题拿到网上去寻找答案,有大神说这是归一化没做好。
那就先进行2项优化:
一是控制训练样本的取值范围到(-1,1),使用方法是原值除以最大值的方法,就像这样:
noisy_imgs=noisy_imgs/abs(noisy_imgs).max()
二是在训练网络的每个卷积后增加BN,就像这样:
conv1 = tf.layers.conv2d(inputs_, 64, (3,3), padding='same', activation=tf.nn.relu)
conv1 = tf.layers.batch_normalization(conv1, training=True)
再进行训练,效果不明显,还是没有收敛。
另外,很多归一化的方法是将取值范围集中在(0,1),使用这样的算法:
imgs= (imgs-imgs.min())/(imgs.max()-imgs.min())#归一化到[0,1]
结果证明对于地震数据完全没法训练,曲线是这样的:
2.学习函数的调整
“一计不成,再生一计”。
我想到了对优化器和LOSS函数进行改动。
在神经网络学习中,损失函数的作用是度量神经网络的输出的预测值,计算与实际值之间的差距,可以说是实现学习的关键函数。常见的损失函数包括:最小二乘损失函数、交叉熵损失函数、回归中使用的smooth L1损失函数等。
而优化函数的原理是:把损失值从神经网络的最外层传递到最前面,实现反向传播学习,这是神经网络实现持续学习达到收敛的关键。如最基础的梯度下降算法包括:随机梯度下降算法,批量梯度下降算法,带动量的梯度下降算法,Adagrad,Adadelta,Adam等。
那我就先从优化器函数入手吧。
既然学习率为0.001无法收敛,那试试0.0001呢。结果还真收敛了,如下图:
那预测效果如何呢?结果是一塌糊涂,连基本特征都学习不到,如下图:
这是怎么回事呢?我的理解是学习率太高,就会让神经网络学习到更细粒度的特征,而失去了我们想要的特征。就相当于研究一个人的特征,我们通常是从五官、体型等方面来看,但如果从细胞的角度的去学习,那就无法还原人的外貌特征了。
另外,设置为0.0005也好不了多少。
那改动LOSS函数能不能起作用呢?
比如改为softmax_cross_entropy_with_logits,像这样:
loss = tf.nn.softmax_cross_entropy_with_logits(labels=targets_, logits=logits_)
结果是无法学习,如下图:
3.其它的尝试
两板斧过去,还没有看到变好的迹象。我没有放弃,我开始思考为啥原程序训练Mnist效果都如此好,换到地震数据训练就不行了呢?
我想到了训练样本数据是不是有问题。我又进行了以下尝试:
一是调整训练样本数据的尺寸:有128*128,40*40,32*32,28*28等。
二是对样本数据进行截断:地震数据不是异常值多,偏离度大吗。我就筛选数据集中的90%区间,区间外面的进行截断,再进行归一化。这样数据分布就均匀多了。
三是扩充采样数据来源,从不同的数据源采样。是不是数据更丰富,训练效果就会改观呢?
……
你可以想象做这些实验有多么琐碎和繁杂,然而现实却是如此的无情。最后结局都是一个——失败,根本拿不出一个像样的效果,连一个较为清晰的结果都没有。
“山穷水复疑无路,柳暗花明又一村”。
在持续N天被现实按在地上摩擦后,我痛定思痛:到底解决的方向在哪里?
在现有这个无可救药的神经网络中,提高学习率可以收敛,但是无法学习到有效特征。降低学习率可以学习到有效特征但是无法收敛,也就是说无法持续优化的学习。整个成了一个悖论。
面对这张丑陋的预测结果图,我意识到可能是网络结构本身出了问题。很有可能是网络对图片数据学习有效,对地震数据学习就是不行。
在翻阅了其它研究者的论文后,我逐步聚焦到了一个结构——解码。我的程序在这部分是使用卷积核上采样的结构。像这样:
conv4 = tf.image.resize_nearest_neighbor(conv3, (8,8))
conv4 = tf.layers.conv2d(conv4, 32, (3,3), padding='same', activation=tf.nn.relu)
而其它地震论文结构却包含了一个我没有的结构——反卷积。
如果我也使用反卷积,甚至就只有卷积和反卷积这种最简单的自编码结构,效果如何呢?像这样的结构:
x = Conv2D(32, (3, 3), activation='relu', padding='same')(input_img)
x = Conv2D(32, (3, 3), activation='relu', padding='same')(x)
x = Conv2DTranspose(32, (3,3), padding='same', activation='relu', kernel_initializer='glorot_normal')(x)#反卷积
x = Conv2DTranspose(32, (3,3), padding='same', activation='relu', kernel_initializer='glorot_normal')(x)
decoded = Conv2DTranspose(1, (1,1), padding='same', activation='tanh', kernel_initializer='glorot_normal')(x)
结果是令人惊艳的。下图是收敛的效果,很快就能够收敛:
训练的效果更好。以下分别是原图,噪声图和去噪效果图:
可以看到,上面噪声几乎淹没了有效信号。然后通过训练,仅仅5个迭代,就较好的分离出了有效信号。
“既然选择了远方 便只顾风雨兼程”。
看来反卷积是是解决地震学习的一把钥匙。下一步我将研究反卷积能适应地震处理的原因,然后继续进行优化和创新,并使用其它算法做对比实验,争取做出更好的效果。
如果喜欢请点“赞”,如果小伙伴对程序感兴趣,可以联系我获取。