蝴蝶效应广告：点燃营销革命！

什么是蝴蝶效应广告？

蝴蝶效应广告，顾名思义，是指一个小小的行动，能够引发更大的效应。比如，一段有趣的视频，在社交媒体上引起了广泛传播，最终为品牌赢得了众多粉丝。这种广告的特点在于，它并不是通过花费大量的广告费而得到的效果，而是依靠创意和用户的推广力量。这种广告具有很高的转化率，能够帮助品牌在短时间内吸引大量潜在客户。

蝴蝶效应广告的优势是什么？

蝴蝶效应广告的优势非常明显。首先，它可以帮助品牌在短时间内获得大量的曝光和关注。因为这种广告往往具有很高的分享度和传播力，可以迅速地扩散到更多的人群中。其次，蝴蝶效应广告的成本非常低，不需要花费大量的广告费用，就能够得到与传统广告相同甚至更好的效果。最后，这种广告的效果持续时间很长，因为用户们会将这些广告作为自己的趣味内容分享给朋友，从而使品牌的影响力不断扩大。

如何打造一种有效的蝴蝶效应广告？

要想打造一种有效的蝴蝶效应广告，需要遵循以下几个原则。首先，广告内容必须独特、有趣、有用。只有这样，才能吸引用户的注意力，激发他们的兴趣和分享欲望。其次，广告的形式必须具有分享价值。比如，制作一个创意十足的视频或图片，或者组织一个有趣的活动，都可以成为一个有效的蝴蝶效应广告。第三，广告需要有一个明确的受众群体，并针对这个受众群体设计内容。最后，需要选择合适的传播渠道，以确保广告以最快的速度、最广泛的范围被传播。

结论：

蝴蝶效应广告是一种非常有效的广告形式，它不仅能够帮助品牌获得大量的曝光和关注，还能够以很低的成本换取高效果。要想打造一种有效的蝴蝶效应广告，需要注意广告内容、形式、受众和传播渠道的选择。

蝴蝶效应广告：点燃营销革命！随机日志

而因为某些原因，Chrome浏览器在国内是无法同步账号数据，挺遗憾的一件事~

1、专为亿万腾讯游戏用户量身定制多款专享游戏特权、热门游戏超值礼包，助力升级提速，享受最畅快的游戏体验。

2、法规知识：含酒驾新规、08新交规介绍，包含新的违法记分标准

3、【天无条件退款】凡是购首次买时空会员套餐的用户，天之内有任何不满意都可以向时空申请退款（恒星套餐体验卡除外）。

4、宝宝可以每天对自己的学习内容进行复习，以此达到巩固的目的，加强训练，才能够让人知识熟记于心。

5、您可以简单地将链接拖放到程序，并将下载的文件从InternetDownloadManager中拖出。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>谷(gu)歌(ge)PaLM 2弱(ruo)爆(bao)：LLM大(da)排(pai)名(ming)屈(qu)居(ju)第(di)六(liu)，準(zhun)中(zhong)文(wen)倒(dao)數(shu)第二(er)｜UC伯(bo)克(ke)利(li)排行(xing)榜(bang)新(xin)鮮(xian)榜出(chu)爐(lu)

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：桃(tao)子(zi) 好(hao)困(kun)

【新智元導(dao)讀(du)】這(zhe)次(ci)「LLM排位(wei)賽(sai)」，谷歌PaLM 2也(ye)被(bei)拉(la)上(shang)溜(liu)了(le)溜。然(ran)而(er)，實(shi)測(ce)表(biao)現(xian)卻(que)讓(rang)人(ren)大跌(die)眼(yan)鏡(jing)。

由(you)UC伯克利主(zhu)导的(de)「LLM排位赛」又(you)雙(shuang)叒(叒)更(geng)新了！

这次，最(zui)新榜單(dan)又迎(ying)來(lai)新的玩(wan)家(jia)，PaLM 2（也是(shi)就(jiu)Bard）、Claude-instant-v1，MosaicML MPT-7B，以(yi)及(ji)Vicuna-7B。

值(zhi)得(de)壹(yi)提(ti)的是，即(ji)便(bian)是平(ping)價(jia)版(ban)的Claude模(mo)型(xing)，Elo得分(fen)也趕(gan)超(chao)了ChatGPT。

但(dan)有(you)一位選(xuan)手(shou)的表现，却出乎(hu)意(yi)料(liao)得拉跨(kua)——谷歌PaLM 2屈居第六，排在(zai)了Vicunna-13B之(zhi)後(hou)。

4月(yue)24日(ri)-5月22日数據(ju)

PaLM 2（Bard）排位大比(bi)拼(pin)

谷歌PaLM 2發(fa)布(bu)以来，根(gen)据論(lun)文的测試(shi)，其(qi)部(bu)分性(xing)能(neng)已(yi)經(jing)超過(guo)了GPT-4。

而它(ta)的具(ju)體(ti)表现如(ru)何(he)？

来自(zi)LMSYS Org的研(yan)究(jiu)人員(yuan)通(tong)过Google Cloud Vertex AI的API接(jie)口(kou)，將(jiang)PaLM 2添(tian)加(jia)到(dao)Chatbot Arena，並(bing)以代(dai)碼(ma)名為(wei)chat-bison@001進(jin)行聊(liao)天(tian)調(tiao)優(you)。

在过去(qu)的兩(liang)周(zhou)，PaLM 2已经與(yu)16個(ge)聊天機(ji)器(qi)人，进行了大約(yue)1800次的匿(ni)名比拼，目(mu)前(qian)排名第六。

從(cong)排行榜中可(ke)以看(kan)出，PaLM 2的排名高(gao)於(yu)所(suo)有其他(ta)開(kai)源(yuan)聊天机器人，除(chu)了Vicuna-13B。

Vicuna-13B的ELO評(ping)分，比PaLM 2高出12分（Vicuna 1054 vs. PaLM 2 1042）。就ELO等(deng)級(ji)而言(yan)，这幾(ji)乎是个平局(ju)。

另(ling)外(wai)，研究者(zhe)从PaLM 2的競(jing)技(ji)場(chang)数据中註(zhu)意到了以下(xia)有趣(qu)的結(jie)果(guo)。

PaLM 2与前4名玩家對(dui)戰(zhan)表现較(jiao)好，即GPT-4，Claude-v1，ChatGPT，Claude-moment-v1。而且(qie)，它与Vicuna的比赛中也贏(ying)了53%的比赛。

然而，PaLM 2与较弱的模型对弈(yi)時(shi)，表现较差(cha)。

在PaLM 2參(can)加的所有比赛中，有21.6%的比赛輸(shu)給(gei)了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作(zuo)为参考(kao)，GPT-3.5-turbo只(zhi)有12.8%的比赛输给了这些(xie)聊天机器人。

三(san)大缺(que)陷(xian)

簡(jian)而言之，研究人员发现，与评估(gu)过的其他模型相(xiang)比，Google Cloud Vertex API现有的PaLM 2存(cun)在以下缺陷：

- PaLM 2受(shou)到更嚴(yan)格(ge)的監(jian)管(guan)，影(ying)響(xiang)了它回(hui)答(da)一些問(wen)題(ti)的能力(li)

- 多(duo)語(yu)言能力有限(xian)

- 推(tui)理(li)能力不(bu)如人意

更严格的监管

与用(yong)戶(hu)的对話(hua)中，PaLM 2遇(yu)到不確(que)定(ding)或(huo)不願(yuan)回答的问题时，与其他模型相比，更有可能放(fang)棄(qi)回答。

粗(cu)略(lve)估計(ji)，在所有的配(pei)对战中，PaLM 2因(yin)为拒(ju)絕(jue)回答问题而输掉(diao)了20.9%比赛。尤(you)其是，有30.8%比赛输给了不是Top 4的模型。

这也能夠(gou)解(jie)釋(shi)，为什(shen)麽(me)PaLM 2经常(chang)输给排行榜上较弱的聊天机器人。

同(tong)时，也反(fan)映(ying)出聊天机器人竞技场方(fang)法(fa)论的一个缺陷，因为隨(sui)意用户更有可能因为微(wei)妙(miao)的不准确回答，而懲(cheng)罰(fa)弃權(quan)行为。

下面(mian)，研究者提供(gong)几个失(shi)敗(bai)的案(an)例(li)，說(shuo)明(ming)PaLM 2如何输给弱聊天机器人。

另外，研究者注意到，有时很(hen)難(nan)明确規(gui)定LLM监管的邊(bian)界(jie)。在提供的PaLM 2版本(ben)中，看到了一些不受歡(huan)迎的趨(qu)勢(shi)：

- PaLM 2拒绝許(xu)多角(jiao)色(se)扮(ban)演(yan)问题，即使(shi)用户要(yao)求(qiu)它模擬(ni)Linux終(zhong)端(duan)或编程(cheng)语言解释器。

- 有时PaLM 2拒绝回答简单且無(wu)爭(zheng)議(yi)的事(shi)实问题。

下面列(lie)舉(ju)了几个PaLM 2拒绝回答问题的例子:

「人類(lei)真(zhen)的登(deng)月了嗎(ma)？」

「为什么天空(kong)是藍(lan)的？」

多语言能力有限

PaLM 2傾(qing)向(xiang)于不回答非(fei)英(ying)语问题，包(bao)括(kuo)用漢(han)语、西(xi)班(ban)牙(ya)语和(he)希(xi)伯来语等流(liu)行语言编寫(xie)的问题。

研究者稱(cheng)，无法使用當(dang)前的PaLM 2版本重(zhong)现「PaLM 2技術(shu)报告(gao)」中演示(shi)的几个多语言示例。

此(ci)外，UC伯克利研究人员還(hai)分別(bie)计算(suan)了僅(jin)考慮(lv)英语和非英语对话时所有模型的Elo评分。

结果證(zheng)实，在非英语排行榜上，PaLM 2排名第16。

推理能力很弱

研究人员称，并沒(mei)有发现PaLM 2有著(zhe)強(qiang)大的推理能力。

一方面，它似(si)乎可以檢(jian)测问题是否(fou)是「純(chun)文本」的，并且倾向于拒绝回答不是纯文本的问题，例如编程语言、调试和代码解释中的问题。

另一方面，与其他聊天机器人相比，PaLM 2在一些入(ru)門(men)级推理任(ren)務(wu)上表现不佳(jia)。

連(lian)1+2是不是等于3这么简单问题，竟(jing)答錯(cuo)了...

刪(shan)除非英语和拒绝对话后的Elo评分

研究人员删除所有非英语对话和PaLM 2没有提供答案的所有对话，并使用过濾(lv)后的数据计算每(mei)个模型重新排位之后——

PaLM 2躍(yue)升(sheng)至(zhi)第五(wu)名，不过还是没有超越(yue)ChatGPT。

而这个排名也代表了PaLM 2在竞技场中的假(jia)設(she)上限。

参数更小(xiao)的模型竞争力强

研究者觀(guan)察(cha)到几个参数较小的模型，包括vicuna-7B和mpt-7b-chat，在排行榜上排名还相对靠(kao)前。

与巨(ju)量(liang)参数大型模型相比，这些较小的模型同樣(yang)表现良(liang)好。

由此，研究人员推测，高質(zhi)量的預(yu)訓(xun)練(lian)，以及微调数据集(ji)比模型规模更重要。

然而，较大的模型在更復(fu)雜(za)的推理任务，或回答更細(xi)微的问题时仍(reng)有可能表现得更好。

因此，在预训练和微调階(jie)段(duan)管理高质量的数据集，似乎是縮(suo)小模型规模的同时，保(bao)持(chi)模型高质量的關(guan)鍵(jian)方法。

Claude-v1与Claude-instant-v1

另外，Claude-instant-v1是針(zhen)对低(di)延(yan)遲(chi)、高吞(tun)吐(tu)量用例进行优化(hua)的版本。

在排位赛中，Claude-instant-v1的水(shui)平实際(ji)上非常接近(jin)GPT-3.5-turbo（1153 vs.1143）。

可以看到，Claude和Claude-instant之間(jian)的评分差距(ju)似乎小于GPT-4和GPT-3.5-turbo之间的差距。

局限性

聊天机器人排位赛主要是对基(ji)于LLM（Large Language Model）的聊天机器人进行「真实環(huan)境(jing)」的基准测试。

这意味(wei)着，用户提供的投(tou)票(piao)数据和在投票过程中生(sheng)成(cheng)的提示-回答，反映的就是聊天机器人在正(zheng)常的人机交(jiao)互(hu)中的表现。

这可能与LLM研究文獻(xian)中的很多基准测试结果不符(fu)，后者倾向于描(miao)述(shu)如zero-shot、复杂推理等長(chang)尾(wei)能力。

因此，目前的排位赛在反映聊天机器人之间的长尾能力差異(yi)方面存在限制(zhi)。

作者介(jie)紹(shao)

本次评测主要由LMSYS Org的Hao Zhang，Lianmin Zheng，Wei-Lin Chiang，Ying Sheng和Ion Stoica完(wan)成。

参考資(zi)料：

https://lmsys.org/blog/2023-05-25-leaderboard/返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：