告别清盘,善用最后机会

概述:在商业世界中,有时候企业需要进行清盘,这是一个不幸的现实。尽管清盘是一种痛苦的经历,但有时候它也会为企业和个人提供新的机会。在本文中,我们将探讨如何善用最后机会,让清盘不再那么可怕。第一段:首先,我们需要了解清盘的原因。或许,企业已经尝试了一切办法,但无法使其业务盈利。或许,由于某些原因,公司管理出现了严重问题,导致业务停滞。无论是哪种情况,清盘一定是一个痛苦的过程。但是,如果我们能够透彻地了解清盘的原因,并采取正确的措施,我们将有机会从中学习,并在未来防范同样的问题发生。第二段:其次,我们需要思考如何善用最后机会。在清盘过程中,我们需要尽可能地减少损失。首先,我们需要清理所有未结账的账户,并追回所有逾期未付款项。这样可以确保我们在清盘过程中获取最大化的收益。其次,我们需要销售所有未出售的库存和固定资产。这将帮助我们减少不必要的开支,并为未来提供资金来源。同时,我们还可以将公司品牌和业务转让给其他公司或个人。这会给我们提供额外的收入,也为其他人提供新的商业机会。第三段:最后,我们需要采取明智的措施,确保我们在未来避免类似的问题。在清盘过程中,我们需要认真分析所有已知的问题,并提出有效的解决方案。我们需要诚实地反思自己的过程,并确认哪些行动是成功的,哪些行动是失败的。我们还需要寻找合适的导师或商业教练,他们可以帮助我们从失败中吸取经验教训,并为未来商业成功提供指导。结论:最后,清盘是一种痛苦的过程,但也可以看作一种新的机会。我们需要善用最后机会,最大程度地减少损失,并从中学习。我们还需要采取措施,确保在未来避免同样的问题。在我们的商业旅程中,失败是不可避免的,但关键在于如何从中学习,并在未来变得更加强大。

告别清盘,善用最后机会 随机日志

精心设计的编排工具条,可以方便而优雅的完成一篇图文并茂的笔记。

1、操作简单,小白必备:无需登录,书城书籍随便看,目录,设置清晰明了,书架更新提示,点击即可阅读新章节

2、部分解决《江南百景图》游戏更新后的卡顿问题,提升流畅度,解决应用中心内App图标有锯齿的问题

3、新特性:国际化新增印度尼西亚语翻译,感谢@aarestu

4、优化勋章达到0级时不显示对应的进度条

5、根据实际情况输入我们的缓存数据,最后点击“OK”按钮即可。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>Meta發(fa)布(bu)首(shou)個(ge)「非(fei)參(can)數(shu)化(hua)」掩(yan)碼(ma)語(yu)言(yan)模(mo)型(xing)NPM:吊(diao)打(da)500倍(bei)参数量(liang)的(de)GPT-3

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):LRS

【新智元導(dao)讀(du)】Meta发布首个非参数化掩码语言模型NPM:那(na)年(nian)雙(shuang)手(shou)插(cha)兜(dou),不(bu)知(zhi)道什(shen)麽(me)叫(jiao)做(zuo)out of vocabulary

雖(sui)然(ran)大(da)型语言模型在(zai)NLP領(ling)域(yu)展(zhan)現(xian)出(chu)的強(qiang)大性(xing)能(neng)十(shi)分(fen)驚(jing)人(ren),但(dan)其(qi)帶(dai)來(lai)的負(fu)面(mian)代(dai)價(jia)也(ye)很(hen)嚴(yan)重(zhong),比(bi)如(ru)訓(xun)練(lian)過(guo)於(yu)昂(ang)貴(gui),難(nan)以(yi)更(geng)新等(deng)。,而(er)且(qie)很难處(chu)理(li)長(chang)尾(wei)知識(shi)。

並(bing)且语言模型通(tong)常(chang)采(cai)用(yong)在預(yu)測(ce)層(ceng)采用壹(yi)个包(bao)含(han)有(you)限(xian)詞(ci)匯(hui)量的softmax层,基(ji)本(ben)上(shang)不會(hui)輸(shu)出少(shao)見(jian)的單(dan)词或(huo)短(duan)语,極(ji)大限制(zhi)了(le)模型的表(biao)達(da)能力(li)。

為(wei)了解(jie)決(jue)模型的长尾問(wen)題(ti),最(zui)近(jin)来自(zi)華(hua)盛(sheng)頓(dun)大學(xue)、Meta AI和(he)艾(ai)倫(lun)人工(gong)智能研(yan)究(jiu)所(suo)的学者(zhe)聯(lian)合(he)提(ti)出了首个「非参数化掩码语言模型」(NonParametric Masked language model, NPM),通过参考(kao)语料(liao)庫(ku)中(zhong)每(mei)个短语的非参数化分布来代替(ti)softmax输出。

論(lun)文(wen)鏈(lian)接(jie):https://arxiv.org/abs/2212.01349

代码链接:https://github.com/facebookresearch/NPM

NPM可(ke)以通过對(dui)比目(mu)標(biao)(contrastive objective)和批(pi)內(nei)近似(si)于檢(jian)索(suo)完(wan)整(zheng)语料库的方(fang)式(shi)進(jin)行(xing)有效(xiao)训练。

研究人員(yuan)对9个封(feng)閉(bi)式任(ren)務(wu)和7个開(kai)放(fang)式任务进行了zero-shot評(ping)估(gu),包括(kuo)强調(tiao)需(xu)要(yao)预测新事(shi)實(shi)或罕(han)见短语的時(shi)空(kong)轉(zhuan)換(huan)和词級(ji)翻(fan)譯(yi)任务。

結(jie)果(guo)发现,無(wu)论是(shi)否(fou)采用检索和生(sheng)成(cheng)的方法(fa),NPM都(dou)明(ming)顯(xian)優(you)于較(jiao)大的参数模型,比如参数量高(gao)500倍的GPT-3和37倍的OPT 13B性能還(hai)强不少,并且NPM在处理罕见模式(词義(yi)或事实)和预测罕见或幾(ji)乎(hu)未(wei)见过的词(如非拉(la)丁(ding)文字(zi))方面尤(you)其出色(se)。

首个非参数化语言模型

虽然结合现有的一些(xie)检索和生成(retrieve-and-generate)的相(xiang)關(guan)工作(zuo)可以緩(huan)解該(gai)问题,但這(zhe)些模型的最終(zhong)预测部(bu)分仍(reng)然需要一个softmax层来预测token,沒(mei)有從(cong)根(gen)本上解决长尾问题。

NPM由(you)一个编码器(qi)和一个参考语料库組(zu)成,编码器將(jiang)文本映(ying)射(she)成一个固(gu)定(ding)大小(xiao)的向(xiang)量,然後(hou)NPM从中检索出一个短语并填(tian)入(ru)[MASK]。

可以看(kan)到(dao),NPM選(xuan)擇(ze)在短语上得(de)到的非参数化分布,而没有使(shi)用一个固定的输出词汇softmax作为输出。

但训练非参数化模型也带来了兩(liang)个关鍵(jian)的问题:

1. 在训练过程(cheng)中检索完整的语料库是非常耗(hao)时耗力的,研究人员通过使用完整语料库检索的批内近似值(zhi)来解决;

2. 在没有解码器的情(qing)況(kuang)下(xia)学習(xi)预测任意(yi)长度(du)的短语是很困(kun)难的,研究人员通过擴(kuo)展span masking和短语级別(bie)的对比目标来解决。

總(zong)之(zhi),NPM完全(quan)刪(shan)除(chu)了输出词汇的softmax,通过预测任意数量的n-gram,实现了有效的无界(jie)输出空間(jian)。

由此(ci)產(chan)生的模型可以预测「极其罕见」甚(shen)至(zhi)是「完全未见过」的单词(如韓(han)语单词),并可以有效地(di)支(zhi)撐(cheng)无限的词汇量,而现有的模型都无法做到这一點(dian)。

NPM方法

NPM的关键思(si)想(xiang)是使用编码器将语料库中的所有短语映射到一个密(mi)集(ji)的向量空间中。在推(tui)理时,當(dang)給(gei)定一个带有[MASK]的查(zha)詢(xun)后,使用编码器从语料库中找(zhao)到最近的短语并填入[MASK]。

純(chun)编码器(Encoder-only)模型是一个很有競(jing)爭(zheng)力的表示(shi)模型,但现有的纯编码模型无法进行token数量未知的预测,使得它(ta)們(men)的使用情况在没有微(wei)调的情况下受(shou)到限制。

NPM通过检索一个短语来填補(bu)[MASK]中的任意数量的token,从而解决了这个问题。

推理

编码器将参考语料库C中的每个不同(tong)的短语都映射到一个密集的向量空间中。

在测試(shi)时,编码器将被(bei)masked的查询映射到相同的向量空间中,并从C中检索出短语来填充(chong)[MASK]。

在这裏(li),C不一定要和训练语料库一樣(yang),在测试时可以被替换或扩展,而不需要重新训练编码器。

在实踐(jian)中,语料库中存(cun)在大量的短语,对所有的短语进行索引(yin)是很昂贵的。

比如我(wo)们考慮(lv)最多(duo)有 l 个token的短语(l≈20),就(jiu)需要索引 l×|C| 数量的向量,这可能会很耗时。

研究人员对C中每个不同的token进行索引,从而将索引的大小从l×|C|減(jian)少到 |C|,然后在测试时,通过对开頭(tou)和结尾分别进行k近鄰(lin)搜(sou)索,对所有短语的非参数分布进行近似。

比如由4个BPE token组成的短语Thessaloniki用c1和c4的連(lian)接来表示,分别对應(ying)于该短语的开始(shi)(The)和结束(shu)(iki)。

然后用同一向量空间中的两个向量q_start和q_end来表示一个查询,然后用每个向量来检索似是而非的短语的开始和结束,然后再(zai)进行聚(ju)合。

这样做的前(qian)提是开始和结尾的表示足(zu)夠(gou)好(hao),即(ji)q起(qi)点足够接近c1,q终点足够接近c4,而这一点在训练过程中已(yi)經(jing)得到確(que)保(bao)了。

训练

NPM是在无标簽(qian)的文本数據(ju)上训练的,以确保编码器将文本映射到一个良(liang)好的密集向量空间。

训练NPM主(zhu)要有两个难题:1)完整的语料库检索会使训练非常耗时;2)用任意长度的短语而不非token来填充[MASK]。

1. 掩码Masking

片(pian)段(duan)掩码(span masking)就是对长度从几何(he)分布中取(qu)样的连續(xu)token进行mask。

研究人员对此进行扩展:

1)如果某(mou)些片段在batch中的其他(ta)序(xu)列(lie)中共(gong)同出现,再对其进行屏(ping)蔽(bi),以保證(zheng)在训练期(qi)间该批次(ci)内的正(zheng)例(li)(in-batch positives)。

比如,屏蔽的片段2010、the Seattle Seahawks和to the都在另(ling)一个序列中共同出现。

但对于「game ,」这个bigram来說(shuo)就无法一起被mask,虽然它们也都出现在两个序列中,但它们并没有在一起共现。

2)不是用[MASK]来替换片段中的每个token,而是用两个特(te)殊(shu)的token [MASKs][MASKe]来替换整个片段。

比如上面的例子(zi)中,不论被mask的片段长度如何,都被替换成[MASKs][MASKe],从而可以獲(huo)得每个片段的起点和终点向量,更方便(bian)推理。

2. 训练目标

假(jia)設(she)被mask的片段是the Seattle Seahawks,在测试时,模型应该从参考语料库的其他序列中检索出the Seattle Seahawks这一短语。

而在推理階(jie)段,模型从[MASKs]和[MASKe]中获得向量,并利(li)用它们分别从语料库中检索出短语的开始和结束。

因(yin)此,训练的目标应该鼓(gu)勵(li)[MASKs]的向量更接近于the Seattle Seahawks中的the,而與(yu)其他token相距(ju)较遠(yuan),并且不应该是任意一个短语中的the,比如become the first中。

通过将完整的语料库近似为batch中的其他序列来训练模型来做到这一点,具(ju)體(ti)来说,训练模型从同一batch的其他序列中检索出the Seattle Seahawks这一片段的起点和终点。

需要註(zhu)意的是,该mask策(ce)略(lve)确保每个被遮(zhe)蔽的跨(kua)度在一个batch中都有一个共同出现的片段。

实驗(yan)部分

从结果上看,NPM在zero-shot设置(zhi)下比其他基線(xian)模型的性能都要强。

在参数化模型中,RoBERTa取得了最好的性能,出人意料地超(chao)过了包括GPT-3等在内的模型,可能是因为纯编码器模型的双向性起到了至关重要的作用,这也表明,因果语言模型可能不是一个合適(shi)的分類(lei)选择。

kNN-LM方法在参数模型中加(jia)入了非参数成分,其性能优于其他所有基线。盡(jin)管(guan)如此,僅(jin)仅依(yi)靠(kao)检索(kNN)在GPT-2中的表现很差(cha),这表明仅在推理时使用kNN是有限的。

NPM SINGLE和NPM的表现都明显优于所有基线,在所有数据集上都取得了一致(zhi)的优越(yue)性能。这表明,即使对于不明确需要外(wai)部知识的任务,非参数模型也非常有竞争力。

定性分析(xi)时采用RoBERTa和NPM在情感(gan)分析任务时的预测结果。第(di)一个例子用便宜(yi)表示不贵,第二(er)个例子用便宜表示質(zhi)量很差。

RoBERTa对这两个例子的预测都是正向的,而NPM通过检索在与输入相同的语境(jing)中使用cheap的语境,做出了正确的预测。

还可以发现,NPM输出的表征(zheng)能带来更好的词义消(xiao)歧(qi)。例如,RoBERTa在cheap(廉(lian)价)和cheap(质量很差)之间分配(pei)了一个很高的相似性分数。

另一方面,NPM成功(gong)地在cheap和cheap之间分配了一个低(di)的相似性分数,也表明该非参数训练与对比性目标是有效的,可以更好地提高表征学习,而kNN推理这类没有训练的算(suan)法是完全做不到的。

参考資(zi)料:

https://arxiv.org/abs/2212.01349返(fan)回(hui)搜狐(hu),查看更多

責(ze)任编辑:

发布于:四川甘孜甘孜县