移动广告资讯大揭秘！

移动广告是指通过移动设备，如手机、平板电脑、笔记本电脑等进行的广告投放。随着移动设备的普及和使用频率的不断上升，移动广告越来越成为品牌推广和营销的重要手段。本文将从移动广告市场规模、投放策略、效果评估和未来发展四个方面进行详细阐述。

一、移动广告市场规模

随着全球移动互联网用户数量的增加，移动广告市场规模也在不断扩大。根据Statista的数据，2021年全球移动广告市场规模将达到2820亿美元，到202年将达到3920亿美元。同样地，根据eMarketer的数据，中国移动广告市场规模在2020年达到了690亿美元，预计到202年将达到1070亿美元。移动广告市场规模的增长，主要是由于移动设备的普及和使用频率的增加，以及移动广告技术的不断创新和升级。移动广告的投放方式也在不断变化，从最初的短信广告、WAP广告，到现在的APP广告、微信广告、抖音广告等多种形式。

二、移动广告投放策略

在移动广告投放方面，投放策略是非常重要的。首先，我们需要明确广告的目标受众，确定受众的年龄、性别、职业、兴趣爱好等信息，以便更好地定位广告投放位置和形式。其次，我们需要选择合适的广告形式，如横幅广告、插屏广告、视频广告、原生广告等。在选择广告形式时，需要考虑到受众的使用习惯和手机屏幕的大小，以便更好地吸引用户的眼球和提高广告的点击率。最后，我们需要选择合适的广告投放时间和地点。在投放时间上，需要选择用户使用手机频率较高的时间段，如上下班时间、午休时间等。在投放地点上，需要选择用户经常使用的APP或网站，以便更好地接触到受众。

三、移动广告效果评估

移动广告的效果评估是非常重要的，它可以帮助我们了解广告投放的效果和受众的反应，以便不断调整和优化广告投放策略。在效果评估方面，我们可以采用CTR（点击率）、CPC（每次点击费用）、CPA（每次行动费用）等指标进行评估。其中CTR指标可以帮助我们了解广告的点击量和点击率，CPC指标可以帮助我们了解每次点击的费用，CPA指标可以帮助我们了解每次行动的费用，如下载APP等。此外，我们还可以采用A/B测试等方式进行效果评估。在A/B测试中，我们可以将广告投放到两个或多个不同的群体中进行比较，以便更好地了解广告的效果和受众的反应。

四、移动广告未来发展

移动广告在未来仍将持续发展，这与移动设备的普及和使用频率的不断上升密切相关。在未来的发展中，移动广告应该继续不断创新和升级，以满足用户的需求和品牌的推广需求。例如，未来的移动广告可以更加精准地定位用户，提供更加优质的广告体验。同时，未来的移动广告也可以结合人工智能等技术，为用户提供更加个性化的广告推荐和服务。

总结归纳

随着移动设备的普及和使用频率的不断上升，移动广告成为品牌推广和营销的重要手段。在移动广告投放中，投放策略和效果评估非常重要，可以帮助我们了解广告投放的效果和受众的反应，以便不断调整和优化广告投放策略。未来的移动广告应该继续不断创新和升级，以满足用户的需求和品牌的推广需求。

问答话题

问：移动广告的市场规模如何？答：根据Statista的数据，2021年全球移动广告市场规模将达到2820亿美元，到202年将达到3920亿美元。根据eMarketer的数据，中国移动广告市场规模在2020年达到了690亿美元，预计到202年将达到1070亿美元。问：移动广告的效果如何评估？答：移动广告的效果可以采用CTR（点击率）、CPC（每次点击费用）、CPA（每次行动费用）等指标进行评估。其中CTR指标可以帮助我们了解广告的点击量和点击率，CPC指标可以帮助我们了解每次点击的费用，CPA指标可以帮助我们了解每次行动的费用，如下载APP等。此外，还可以采用A/B测试等方式进行效果评估。

移动广告资讯大揭秘！随机日志

和上市公司声网环信合作，提供更可靠流畅的及时通讯服务；

1、答：所有设备都有“使用时间”限制，时间到期就会进入设备赎回期，用户可以在赎回期续费，当续费成功后当前设备中所有信息继续保留，反之赎回期时间到了之后设备中所有信息销毁。每台云手机设备到期后有小时的赎回期时间。

2、【修复】修复部分文章导出txt没有正文内容；

3、右侧为url记录，所有verified过的url会展示在右侧的窗口

4、【快！非常快！】国内高端U内核，速度提升0%以上，带给您极速、流畅、稳定的上网体验

5、·炫酷视频转场特效，交叉、闪黑、擦除等五十种特效任你选。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>「成(cheng)熟(shu)」大(da)模(mo)型(xing)才(cai)能(neng)湧(yong)現(xian)？MIT：GPT-4能自(zi)我(wo)糾(jiu)錯(cuo)代(dai)碼(ma)，GPT-3.5卻(que)不(bu)行(xing)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：编辑部(bu)

【新智元導(dao)讀(du)】MIT、微(wei)軟(ruan)的(de)研(yan)究(jiu)發(fa)现，GPT-4能夠(gou)自我纠正(zheng)错誤(wu)代码，GPT-3.5却不行。無(wu)獨(du)有(you)偶(ou)，其(qi)他(ta)研究也(ye)表(biao)明(ming)，似(si)乎(hu)只(zhi)有「成熟」的大模型才具(ju)備(bei)涌现能力(li)。背(bei)後(hou)的原(yuan)因(yin)竟(jing)是(shi)因為(wei)……

我們(men)都(dou)知(zhi)道，大語(yu)言(yan)模型在(zai)生(sheng)成代码方(fang)面(mian)，表现出(chu)了(le)非(fei)凡(fan)的能力。然(ran)而(er)，在具有挑(tiao)戰(zhan)性(xing)的编程(cheng)任(ren)務(wu)（比(bi)如(ru)競(jing)賽(sai)和(he)软件(jian)工(gong)程師(shi)的面試(shi)）中(zhong)，它(ta)们却完(wan)成得(de)並(bing)不好(hao)。

好在，很(hen)多(duo)模型會(hui)通(tong)過(guo)壹(yi)種(zhong)自修(xiu)復(fu)工作(zuo)流(liu)來(lai)「自省(sheng)」，来自我纠正代码中的错误。

研究者(zhe)很希(xi)望(wang)知道，這(zhe)些(xie)模型在多大程度(du)上(shang)能提(ti)供(gong)正確(que)的反(fan)饋(kui)，并且(qie)說(shuo)明自己(ji)生成的代码为什(shen)麽(me)是错误的。

近(jin)日(ri)，MIT和微软的學(xue)者发现，在對(dui)GPT-4和GPT-3.5，只有GPT-4表现出了有效(xiao)的自修复。并且，GPT-4甚(shen)至(zhi)還(hai)能对GPT-3.5生成的程序(xu)提供反馈。

論(lun)文(wen)地(di)址(zhi)：https://arxiv.org/abs/2306.09896

愛(ai)丁(ding)堡(bao)大学博(bo)士(shi)生符(fu)堯(yao)表示(shi)，自己的團(tuan)隊(dui)也发现了類(lei)似結(jie)果(guo)—— 只有GPT-4能够自我改(gai)進(jin)，而較(jiao)弱(ruo)的模型則(ze)不能。

也就(jiu)是说，只有當(dang)模型足(zu)够「成熟」（規(gui)模大且对齊(qi)良(liang)好）時(shi)，可(ke)能存(cun)在一种新的「涌现能力」（即(ji)在自然语言反馈的基(ji)礎(chu)上改进）。

只有足够「成熟」的模型才能聽(ting)取(qu)并在自然语言反馈的基础上进行改进；较弱的模型要(yao)么无法(fa)理(li)解(jie)反馈，要么无法对其进行改进。

我傾(qing)向(xiang)於(yu)相(xiang)信(xin)这种「涌现能力」（通过语言反馈自我改进）將(jiang)对LLM的发展(zhan)產(chan)生非常(chang)重(zhong)大的影(ying)響(xiang)，因为这意(yi)味(wei)著(zhu)(zhe)AI可以(yi)在很少(shao)的人(ren)工監(jian)督(du)下(xia)持(chi)續(xu)不斷(duan)地进行自主(zhu)改进。

俄(e)勒(le)岡(gang)州(zhou)立(li)大学傑(jie)出教(jiao)授(shou)Thomas G. Dietterich認(ren)为，这可能是LLM包(bao)含(han)了多個(ge)子(zi)模型，这些子模型之(zhi)間(jian)可能存在不一致(zhi)性，而这种情(qing)況(kuang)在更(geng)大的模型中更为常見(jian)。

「自我改进」是去(qu)除(chu)这些不一致性的过程。他的預(yu)測(ce)是，一旦(dan)这些不一致性被(bei)消(xiao)除，自我改进将停(ting)止(zhi)。

对此(ci)，符尧非常同(tong)意：「在上下文学習(xi)中使(shi)用(yong)自我改进，可能会一定(ding)程度上推(tui)動(dong)模型，但(dan)进展不会很大；而強(qiang)化(hua)学习可能会推进得更遠(yuan)。之后，模型需(xu)要與(yu)世(shi)界(jie)进行交(jiao)互(hu)，通过接(jie)受(shou)基于實(shi)際(ji)情境(jing)的反馈来进一步(bu)改进。」

不过，俄亥(hai)俄州立大学工程系(xi)杰出助(zhu)理教授Yu Su则认为，这可能只是因为在指(zhi)令(ling)微調(tiao)的數(shu)據(ju)上存在一些无意的差(cha)異(yi)而已(yi)。

对此符尧表示，他在Claude模型上也发现了类似的行为——Claude-instant无法很好地响應(ying)语言反馈（因为它很難(nan)理解和遵(zun)循(xun)指令），但Claude可以。

而且，这些觀(guan)察(cha)结果还在多篇(pian)相關(guan)的论文中出现，不太(tai)可能是无意的数据差异。

揭(jie)秘(mi)用于代码生成的GPT自修复

大语言模型怎(zen)樣(yang)通过自我修复提高(gao)性能？这个过程是靠(kao)模型的自省，自我纠正代码中的错误。

下圖(tu)顯(xian)示了模型自修复方法的典(dian)型工作流。

首(shou)先(xian)，我们会給(gei)定一个规範(fan)，從(cong)一个代码生成模型中给一个程序采(cai)样，然后在规范中的一組(zu)單(dan)元测试上執(zhi)行这个程序。

如果程序在测试中失(shi)敗(bai)，错误消息(xi)会被傳(chuan)送(song)到(dao)反馈生成模型，輸(shu)出一个代码失败原因的解釋(shi)，然后把(ba)反馈传给修复模型。

从表面上看(kan)，这个工作流似乎非常完美(mei)。它讓(rang)系統(tong)克(ke)服(fu)了在解码过程中不良样本(ben)引(yin)起(qi)的错误，还模仿(fang)了人类软件工程师寫(xie)代码的试错方法。

然而，工作流有一个問(wen)題(ti)：自修复需要对模型进行更多的调用，从而增(zeng)加(jia)了計(ji)算(suan)成本。

而且，研究者们发现了一个很有意思(si)的现象(xiang)：大模型自修复的有效性不僅(jin)取決(jue)于模型生成代码的能力，还取决于它对于代码如何(he)在任务中犯(fan)错的識(shi)別(bie)能力。

目(mu)前(qian)还沒(mei)有任何工作对此进行詳(xiang)細(xi)调查(zha)，因此，作者们研究了GPT-3.5和GPT-4在解决竞赛級(ji)代码生成任务时的自修复有效性。

他们提出了一种pass@t的新評(ping)估(gu)策(ce)略(lve)，在这个策略中，根(gen)据从模型中采样的token總(zong)数来衡(heng)量(liang)任务的通过率(lv)。

因为使用的是pass@t，而不是传统的pass@k（根据实驗(yan)数量衡量通过率），这样就能与純(chun)粹(cui)基于采样的方法进行公(gong)平(ping)的比较。

从实验中，研究者发现：

1. GPT-4才能实现自我修复帶(dai)来的性能提升(sheng)；对于GPT-3.5，在所(suo)有预算下，修复后的通过率要低(di)于或(huo)等(deng)于基準(zhun)的无修复方法。

2. 即使对于GPT-4模型，性能提升也最(zui)多只能算是適(shi)度的（在预算为7000个token的情况下，通过率从66％提高到71％，約(yue)等于45个独立同分(fen)布(bu)的GPT-4样本的成本），并且取决于初(chu)始(shi)程序的多样性足够豐(feng)富(fu)。

3. 使用GPT-4生成的反馈替(ti)換(huan)GPT-3.5对错误的解释，可以獲(huo)得更好的自修复性能，甚至超(chao)过基准的无修复GPT-3.5方法（在7000个token下，从50％提高到54％）。

4. 使用人类程序員(yuan)提供的解释替换GPT-4自己的解释，可以显著改善(shan)修复效果，修复并通过测试的程序数量增加了57%。

实验

研究人员又(you)进一步針(zhen)对3个问题进行了测试：

1. 对于更加有挑战的编程任务中，这些模型的自我修复是否(fou)比不进行修复的i.i.d.有更好的采样？

2. 更强的反馈模型会提高模型的修复性能嗎(ma)？

3. 如果让人类參(can)与功(gong)能最强模型的自我修复循環(huan)，提供人工反馈，是否可以解鎖(suo)更好的修复性能？

首先研究团队引入(ru)了一个很有挑战的编程任务：Automated Programming Progress Standard （APPS）数据集(ji)中的编程任务。

这个数据集中的任务包括(kuo)从入門(men)级到大学竞赛级的编程任务，可以用来评估人类程序员解决问题和代码能力。

研究人员選(xuan)取了300个任务，包括60个入门级别的任务和60个竞赛级别的任务。

研究人员选取了GPT-3.5和GPT-4作为模型，使用模板(ban)字(zi)符串(chuan)連(lian)接和单次(ci)提示詞(ci)来进行自我修复。

下图为提示词的实例(li)之一。

自修复需要强大的模型和多样化的初始样本

研究人员让单个模型分别进行代码的修复生成和反馈生成。

在右(you)邊(bian)的图中，我们沿(yan)軸(zhou)显示了具有兩(liang)个超参数的熱(re)图，其中每(mei)个单元格(ge)中的值(zhi)表示平均(jun)通过率，当给定相同的token预算（即t的相同值pass@t）时，自我修复由(you)基線(xian)的平均通过率歸(gui)一化。

从图中可以看到，对于GPT-3.5模型，pass@t在所有設(she)置(zhi)下都低于或等于相应的基线（黑(hei)），清(qing)楚(chu)地表明自我修复对GPT-3.5并不是一种有效的策略。

而在GPT-4（下图）中，有幾(ji)个值的自修复通过率明显優(you)于基线。

GPT-4反馈改进了GPT3.5的修复结果

研究人员又进一步进行了新的实验，评估使用单独的、更强的模型来生成反馈的效果，目的是为了测试一个假(jia)设：由于模型无法內(nei)省和调试自己的代码，阻(zu)礙(ai)了自我修复（比如说对于GPT-3.5）。

这个实验的结果如上图（亮(liang)藍(lan)色(se)）所示。

在絕(jue)对性能方面，GPT-3.5，GPT-4确实突(tu)破(po)了性能障(zhang)碍，并且比GPT-3.5的i.i.d.采样略微更高效。

这表明文本反馈階(jie)段(duan)本身(shen)是至关重要的，改进它可以緩(huan)解GPT-3.5自修复的瓶(ping)頸(jing)。

人工反馈显著提高了GPT-4修复的成功率

在最后一項(xiang)实验中，想(xiang)要研究在用更强的模型（GPT-4）进行修复时，加入專(zhuan)家(jia)人类程序员的反馈的影响。

研究目的是了解模型识别代码中错误的能力与人类的能力相比如何，以及(ji)这如何影响自修复的下遊(you)性能。

研究人员研究人员招(zhao)募(mu)了16名(ming)参与者，包括15名研究生和1名专業(ye)機(ji)器(qi)学习工程师。

每个参与者都有五(wu)种不同的基础程序，基于他们的Python經(jing)验编写代码。

每个程序都取自不同的任务，参与者永(yong)远不会看到屬(shu)于同一个任务的两个不同的程序。

然后，参与者被要求(qiu)用他们自己的話(hua)解释这个程序做(zuo)错了什么。

实验结果如下图所示：

研究人员发现，当我们用人类参与者的调试替换GPT-4自己的调试时，总體(ti)成功率提高了1.57×以上。

不出意外(wai)的是，隨(sui)着问题變(bian)得更难，相对差异也会增加，这表明当任务（和代码）变得更复雜(za)时，GPT-4产生准确和有用反馈的能力远远落(luo)后于人类参与者。

作者介(jie)紹(shao)

Jianfeng Gao

高劍(jian)鋒(feng)是微软的杰出科(ke)学家和副(fu)总裁(cai)，也是IEEE Fellow。

在微软研究院(yuan)，他是Redmond分部深(shen)度学习（DL）组的負(fu)責(ze)人。該(gai)组的使命(ming)是推进DL的最新技(ji)術(shu)，并将其应用于自然语言和图像(xiang)理解以及構(gou)建(jian)对话代理。他領(ling)导了构建大规模基础模型的研究，这些模型为微软的重要人工智能产品(pin)提供了支(zhi)持。

从2022年(nian)開(kai)始，他负责自我改进人工智能的研究，其中包括对LLM（如ChatGPT/GPT4）进行增强和适应，以用于商(shang)业人工智能系统的开发。

在此之前，他于1999年在上海(hai)交通大学获得博士学位(wei)。

Chenglong Wang

Chenglong Wang是微软研究院的研究员，此前在華(hua)盛(sheng)頓(dun)大学获得了博士学位，并曾(zeng)就读于北(bei)京(jing)大学。

符尧的相似发现

论文地址：https://arxiv.org/abs/2305.10142

在这篇论文中，研究人员研究了多个LLM是否能够在談(tan)判(pan)博弈(yi)中进行自主改进。

如果LLM能够相互进行改进，这将意味着研究人员有可能在最少的人为幹(gan)预下創(chuang)建强大的AI代理。

他们让两个LLM分别扮(ban)演(yan)買(mai)方和賣(mai)方的角(jiao)色，目標(biao)是与买家達(da)成交易(yi)，买家的目标價(jia)格应该较低，卖家的目标价格应该较高。

研究人员又找(zhao)来第(di)三(san)种语言模型，扮演评论家提供反馈，以改进另(ling)两个LLM的谈判策略。

研究人员让两个LLM进行了多輪(lun)比赛，使用之前的谈判歷(li)史(shi)和AI反馈作为上下文，叠(die)代地改进模型的谈判策略。

两个LLM分别是GPT和Claude，使用交易价格作为评估指标。

团队发现，只有一小(xiao)部分可以通过AL反馈进行自我博弈并提高交易价格，较弱的模型要么不理解游戲(xi)规则，要么不能納(na)入AI反馈以进一步改进。

此外，扮演不同角色的模型从反馈中学习的能力不同。例如，Claude-instant作为买方比作为卖方更难提高。

同时，当游戏展开到多个回(hui)合(he)时，更强大的代理可以通过有意地使用之前的经验和迭代AI反馈来不断提高自己的表现，但却有更高的破壞(huai)交易的風(feng)險(xian)。

研究人员希望这部分工作能够提供一些初步探(tan)索(suo)，让模型通过游戏和AI反馈自主地相互改进。

研究人员研究了多个LLM是否可以在協(xie)商游戏中以最少的人为干预进行相互改进，就像AlphaGo Zero那(na)样——AI智能体通过在明确定義(yi)的规则下，持续进行竞爭(zheng)游戏来提高自己。

这个问题具有深远的意义。如果智能体能够进行自主改进，研究人员就可以在很少的人工註(zhu)释下创建强大的智能体，大大節(jie)省了訓(xun)練(lian)成本。

在风险方面，它还意味着将能创建出具有有限(xian)人工监督的强代理。

下图就是Claude和GPT討(tao)价还价的图示：

第一轮先由买卖雙(shuang)方自由发揮(hui)，然后AI给出反馈。

之后买卖双方再(zai)根据反馈的内容(rong)进行新一轮互动。

图B展示了AI可能给出的反馈，以及GPT-4根据反馈如何提升自己。

比如flinch technique，一种砍(kan)价的时候(hou)的「退(tui)縮(suo)技巧(qiao)」，展示出一种意外和失落。

话术就像：哎(ai)这可比我想的貴(gui)啊(a)。

只有性能强大的AI才能每轮都从反馈中提升，性能较弱的AI做不到这一點(dian)。

下图中C1表示可以进行日常交谈的模型，C2表示可以进行角色扮演、讨价还价的模型，C3表示单轮内可以从AI反馈中提升自己的模型，C4则是最强一批(pi)——可以持续进行提升的模型。

实验表明，在AlphaGo Zero模式(shi)下，在定义明确的规则下，通过迭代AI反馈的持续比赛，某(mou)些模型确实可以得到改善。

研究人员还展示了下一轮游戏中，价格改进和成功率之间的權(quan)衡，因为更好的交易价格也伴(ban)随着更高的风险。

这表明，在未(wei)来的研究中，可能会考(kao)慮(lv)全(quan)局(ju)优化，以提高多轮的整(zheng)体收(shou)益(yi)。

研究人员进一步从迭代AI反馈中展示了语言改进的證(zheng)据：在多轮游戏中，一个模型可能比另一个模型精(jing)煉(lian)，可以更好地调整单词，从而更有效地获得更好的交易。

研究人员相信该结果对AI研究具有深远的影响。

从積(ji)極(ji)的方面来看，它表明了在最少的人为干预下不断改进语言模型是非常可能的。

而风险方面，在研究人员的框(kuang)架(jia)中监督模型行为可能更具挑战性——因为模型是自主行动的，这需要未来在多智能体游戏环境下进行对齐和安(an)全性研究。

参考資(zi)料(liao)：

https://arxiv.org/abs/2306.09896

https://arxiv.org/abs/2305.10142返(fan)回搜(sou)狐(hu)，查看更多

责任编辑：