瞬间定格幸福,推荐这家照相馆!

瞬间定格幸福——推荐一家照相馆

在生命的旅途中,人们总是希望能够永远珍藏那些美好的瞬间。在这个数字时代,我们拍摄的照片越来越多,但是相对的,我们也越来越难以找到一家好的照相馆来印刷和保存这些珍贵的照片。今天,我要推荐一家值得信赖的照相馆——瞬间定格幸福。

1. 专业的服务

瞬间定格幸福是一家致力于为顾客提供最好的照片印刷和保存服务的照相馆。他们为每个顾客提供个性化的服务,包括肖像、婚礼、宝宝和家庭照片等。他们拥有一支专业的团队,每个人都拥有多年的从业经验,可以确保您的照片印刷和保存的质量和效果达到最佳状态。

2. 高品质的照片输出

瞬间定格幸福拥有最先进的照片印刷设备,可以保证您的照片输出的质量。他们使用的所有设备都是最新的,并经过严格的测试和检查,以确保它们的性能和输出质量都是最好的。他们使用的照片纸也是最高质量的,以确保您的照片可以持久保存。

3. 安全和保密

瞬间定格幸福非常注重顾客的隐私和安全。他们保证您的照片不会被泄露给任何不相关的第三方。他们采用先进的技术和方法来保护您的照片和个人信息,以确保它们的安全性和保密性。

总之,瞬间定格幸福是一家值得信赖的照相馆,他们为每个顾客提供个性化的服务,保证高品质的照片输出,并注重顾客的隐私和安全。如果您正在寻找一家可靠的照相馆来印刷和保存您的照片,请考虑瞬间定格幸福。咨询网站客服,开始您的瞬间定格幸福的旅程吧!

瞬间定格幸福,推荐这家照相馆!随机日志

07支付宝软件最新版本v9支付宝常规更新

1、视频教程,点击就会弹出网页,在网页上面可以查看软件的详细使用教程。

2、教学经验十年以上、全中国最顶尖最元老的网络教师。他们深谙教学之道,寓教于乐。他们功底扎实,谈笑间,“难题”灰飞烟灭。

3、◆【修复】据点搜索页切换tab会产生页面空白

4、添加家人或者朋友,随时随地了解他们的身体变化情况;

5、如果您没有收到提醒,请在手机上开启邮箱大师并保留在后台运行。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>CV開(kai)啟(qi)大(da)模(mo)型(xing)時(shi)代(dai)!谷(gu)歌(ge)發(fa)布(bu)史(shi)上(shang)最(zui)大ViT:220億(yi)參(can)數(shu),視(shi)覺(jiao)感(gan)知(zhi)力(li)直(zhi)逼(bi)人(ren)類(lei)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):LRS

【新智元導(dao)讀(du)】ViT模型何(he)时才(cai)能(neng)破(po)萬(wan)亿?

Transformer無(wu)疑(yi)是(shi)促(cu)進(jin)自(zi)然(ran)語(yu)言(yan)處(chu)理(li)領(ling)域(yu)繁(fan)榮(rong)的(de)最大功(gong)臣(chen),也(ye)是GPT-4等(deng)大規(gui)模语言模型的基(ji)礎(chu)架(jia)構(gou)。

不(bu)過(guo)相(xiang)比(bi)语言模型動(dong)輒(zhe)成(cheng)千(qian)上万亿的参数量(liang),計(ji)算(suan)機(ji)视觉领域吃(chi)到(dao)Transformer的紅(hong)利(li)就(jiu)沒(mei)那(na)麽(me)多(duo)了(le),目(mu)前(qian)最大的视觉Transformer模型ViT-e的参数量還(hai)只(zhi)有(you)40亿参数。

最近(jin)谷歌发布了壹(yi)篇(pian)論(lun)文(wen),研(yan)究(jiu)人員(yuan)提(ti)出(chu)了一種(zhong)能夠(gou)高(gao)效(xiao)且(qie)穩(wen)定(ding)訓(xun)練(lian)大规模Vision Transformers(ViT)模型的方(fang)法(fa),成功將(jiang)ViT的参数量提升(sheng)到220亿。

论文鏈(lian)接(jie):https://arxiv.org/abs/2302.05442

為(wei)了實(shi)現(xian)模型的擴(kuo)展(zhan),ViT-22B結(jie)合(he)了其(qi)他(ta)语言模型(如(ru)PaLM模型)的思(si)路(lu),使(shi)用(yong) QK 歸(gui)一化(hua)改(gai)进了训练稳定性(xing),提出了一种異(yi)步(bu)並(bing)行(xing)線(xian)性操(cao)作(zuo)(asynchronous parallel linear operations)的新方法提升训练效率(lv),并且能够在(zai)硬(ying)件(jian)效率更(geng)高的Cloud TPU上进行训练。

在對(dui)ViT-22B模型进行实驗(yan)以(yi)評(ping)估(gu)下(xia)遊(you)任(ren)務(wu)性能时,ViT-22B也表(biao)现出类似(si)大规模语言模型的能力,即(ji)隨(sui)著(zhu)(zhe)模型规模的扩大,性能也在不斷(duan)提升。

ViT-22B 还可(ke)以應(ying)用於(yu)PaLM-e中(zhong),與(yu)语言模型结合後(hou)的大模型可以顯(xian)著提升机器(qi)人任务的技(ji)術(shu)水(shui)平(ping)。

研究人员还进一步觀(guan)察(cha)到规模帶(dai)來(lai)的其他優(you)勢(shi),包(bao)括(kuo)更好(hao)地(di)平衡(heng)公(gong)平性和(he)性能,在形(xing)狀(zhuang)/紋(wen)理偏(pian)見(jian)方面(mian)与人类视觉感知的一致(zhi)性,以及(ji)更好的稳健(jian)性。

模型架构

ViT-22B 是一個(ge)基于Transformer架构的模型,和原(yuan)版(ban)ViT架构相比,研究人员主(zhu)要(yao)做(zuo)了三(san)处修(xiu)改以提升训练效率和训练稳定性。

并行層(ceng)(parallel layers)

ViT-22B并行執(zhi)行註(zhu)意(yi)力塊(kuai)和MLP块,而(er)在原版Transformer中为順(shun)序(xu)执行。

PaLM模型的训练也采(cai)用了這(zhe)种方法,可以将大模型的训练速(su)度(du)提高15%,并且性能没有下降(jiang)。

query/key (QK) normalization

在扩展ViT的过程(cheng)中,研究人员在80亿参数量的模型中观察到,在训练幾(ji)千步之(zhi)后训练損(sun)失(shi)开始(shi)发散(san)(divergence),主要是由(you)于注意力logits的数值(zhi)过大引(yin)起(qi)的不稳定性,导致零(ling)熵(shang)的注意力權(quan)重(zhong)(几乎(hu)one-hot)。

为了解(jie)決(jue)这个問(wen)題(ti),研究人员在點(dian)乘(cheng)注意力计算之前对Query和Key使用LayerNorm

在80亿参数模型上的实验结果(guo)如下圖(tu)所(suo)示(shi),归一化可以緩(huan)解发散问题。

刪(shan)除(chu)QKV投(tou)影(ying)和LayerNorms上的偏置(zhi)項(xiang)

和PaLM模型一樣(yang),ViT-22B從(cong)QKV投影中删除了偏置项,并且在所有LayerNorms中都(dou)没有偏置项(bias)和centering,使得(de)硬件利用率提高了3%,并且質(zhi)量没有下降。

不过与PaLM不同(tong)的是,ViT-22B对(內(nei)部(bu)和外(wai)部)MLP稠(chou)密(mi)連(lian)接层使用了偏置项,可以观察到质量得到了改善(shan),并且速度也没有下降。

ViT-22B的编碼(ma)器模块中,嵌(qian)入(ru)层,包括抽(chou)取(qu)patches、线性投影和額(e)外的位(wei)置嵌入都与原始ViT中使用的相同,并且使用多頭(tou)注意力pooling来聚(ju)合每(mei)个头中的per-token表征(zheng)。

ViT-22B的patch尺(chi)寸(cun)为14×14,图像(xiang)的分(fen)辨(bian)率为224×224(通(tong)过inception crop和随机水平翻(fan)轉(zhuan)进行預(yu)处理)。

异步并聯(lian)线性運(yun)算(asynchronous parallel linear operations)

大规模的模型还需(xu)要分片(pian)(sharding),即将模型参数分布在不同的计算設(she)備(bei)中,除此(ci)之外,研究人员还把(ba)激(ji)活(huo)(acctivations,輸(shu)入的中間(jian)表征)也进行分片。

因(yin)为输入和矩(ju)陣(zhen)本(ben)身(shen)都是分布在各(ge)种设备上的,即使是像矩阵乘法这样簡(jian)單(dan)的操作也需要特(te)別(bie)小(xiao)心(xin)。

研究人员开发了一种稱(cheng)为异步并行线性运算的方法,可以在矩阵乘法单元(在TPU 中占(zhan)據(ju)絕(jue)大多数计算能力的单元)中计算时,同时对设备之间的激活和权值进行通信(xin)。

异步方法最小化了等待(dai)傳(chuan)入通信的时间,从而提高了设备效率。

异步并行线性运算的目標(biao)是计算矩阵乘法 y = Ax,但(dan)矩阵 A 和激活 x 都分布在不同的设备上,需要通过跨(kua)设备的重疊(die)通信和计算来实现这一点。矩阵 A 在设备之间进行列(lie)分片(column-shard),每个矩阵包含(han)一个连續(xu)的切(qie)片,每个块表示为 Aij,更多細(xi)節(jie)請(qing)看(kan)原始论文。

实验结果

为了說(shuo)明(ming)ViT-22B學(xue)習(xi)到的表征非(fei)常(chang)豐(feng)富(fu),研究人员使用LiT-tuning训练一个文本模型来生(sheng)成一些(xie)表征用来对齊(qi)文本和图像。

论文中还討(tao)论了ViT-22B在视頻(pin)分类、深(shen)度估计和语義(yi)分割(ge)任务上的效果。

为了验證(zheng) ViT-22B 分类决策(ce)与人类分类决策的一致性,研究人员对 ViT-22B 进行了微(wei)調(tiao),对分布外(OOD)数据集(ji)的不同分辨率进行了微调,其中人类比較(jiao)数据可通过model-vs-human toolbox獲(huo)得。

該(gai)工(gong)具(ju)箱(xiang)主要衡量三个關(guan)鍵(jian)指(zhi)标: 模型如何处理失真(zhen)(準(zhun)確(que)性) ?人和模型的精(jing)度(精度差(cha))有什(shen)么不同?人和模型的錯(cuo)誤(wu)模式(shi)(错误一致性)有多相似?

形状偏差评估(值越(yue)大代表更多的形状偏差)。許(xu)多视觉模型具有低(di)形状/高纹理偏差,而在 ImageNet 上进行微调的 ViT-22B具有迄(qi)今(jin)为止(zhi)在 ML 模型中記(ji)錄(lu)的最高形状偏差,更接近于人类形状偏见

实验结果显示,雖(sui)然并非所有的微调解决方案(an)都表现得很(hen)好,但 ViT-22B 變(bian)體(ti)在所有三个指标上都達(da)到了新高。

此外,ViT-22B 模型在视觉模型中也有最高的形状偏差记录。这意味(wei)着他們(men)主要使用目标的形状,而不是目标的纹理来进行分类决策,策略(lve)结果类似于人类的感知(其形状偏差为96%)。

貓(mao)还是大象(xiang)?車(che)还是鐘(zhong)?鳥(niao)还是自行车?具有某(mou)个物(wu)体的形状和另(ling)一个不同物体纹理的图像,可用于測(ce)量形状/纹理偏差

分布外(out-of-distribution)性能

测量 OOD 数据集的性能有助(zhu)于评估模型泛(fan)化性。

在这个实验中,研究人员构建(jian)了从 JFT 到 ImageNet 的标簽(qian)映(ying)射(she),以及从 ImageNet 到不同的分布外数据集(如 ObjectNet)的标签映射。

对这些数据进行预训练后的结果如下图所示,然后在 ImageNet 上对模型进行完(wan)全(quan)微调。

可以观察到縮(suo)放(fang) Vision Transformers 可以提高 OOD 性能: 即使 ImageNet 的精度达到飽(bao)和,也可以看到 ObjectNet 上从 ViT-e 換(huan)成 ViT-22B 模型可以显著提升性能。

线性探(tan)测Linear Probe

线性探测是一种将单个线性层置于凍(dong)结模型之上的技术,与完全微调相比,这种方法的训练成本更低,设置起来也更容(rong)易(yi)。

在 ImageNet 上训练的线性探测结果,在 ImageNet-Real,ImageNet-v2,ObjectNet,ImageNet-R 和 ImageNet-A 数据集上评估,提供(gong)高分辨率微调 ViT-e/14作为参考(kao)

从结果中可以观察到,ViT-22B 的线性探测性能接近于使用高分辨率图像对较小模型进行全面微调的最先(xian)进水平,其中具有较高分辨率的训练通常要昂(ang)貴(gui)得多,但可以在许多任务上取得更好的结果。

蒸(zheng)餾(liu)

利用蒸馏法,可以将较大模型的知識(shi)转化为较小模型的知识,可以提升成本更高、运行速度更慢(man)的大模型的运行效率。

从实验结果中可以发现,ViT-22B 的知识可以遷(qian)移(yi)到更小的模型,如 ViT-B/16和 ViT-L/16,并在同等模型尺寸下在ImageNet上刷(shua)新了性能记录。

公平性与偏见

机器学习模型容易受(shou)到意想(xiang)不到的不公平偏见的影響(xiang),例(li)如找(zhao)到错误的相关性或(huo)者(zhe)在各个子(zi)群(qun)体之间存(cun)在性能差距(ju),研究人员发现,扩大模型规模有助于缓解这些问题。

首(shou)先,规模是一个有前景(jing)的权衡方式,即使模型經(jing)过训练后再(zai)进行后处理,将其人口(kou)平等(demographic parity)水平控(kong)制(zhi)在规定的、可容忍(ren)的水平之下,性能也會(hui)随着规模的增(zeng)加(jia)而提高。

上图: 去(qu)偏前 CelebA 中每个子組(zu)的精度。下图: y 軸(zhou)显示了在这个例子中突(tu)出显示的兩(liang)个特定亞(ya)组(女(nv)性和男(nan)性)的表现的绝对差异。与较小的 ViT 模型相比,ViT-22B 在性能的差距很小。

更重要的是,这不僅(jin)適(shi)用于以准确性衡量性能的情(qing)況(kuang),而且适用于其他度量,例如校(xiao)准,即对模型估计概(gai)率的真实性的統(tong)计测量,所有子群的分类随着规模的增大而趨(qu)于改善,并且ViT-22B 降低了各子群之间的性能差距。

结论

研究人员提出了一个目前最大的视觉Transformer模型 ViT-22B,包含220亿参数。

通过对原始模型架构进行微小但关键的修改后,实现了更高的硬件利用率和训练稳定性,从而得到了一个在几个基准测試(shi)上提高了模型的上限(xian)性能。

使用冻结模型生成嵌入,只需要在頂(ding)部训练几层,即可获得很好的性能,并且评估结果进一步表明,与现有模型相比,ViT-22B 在形状和纹理偏差方面显示出与人类视知觉更多的相似性,并且在公平性和稳健性方面提供了优势。

参考資(zi)料(liao):

https://ai.googleblog.com/2023/03/scaling-vision-transformers-to-22.html返(fan)回(hui)搜(sou)狐(hu),查(zha)看更多

責(ze)任编辑:

发布于:黑龙江省大兴安岭呼玛县