做创意的广告公司

福建东南新闻网

创意广告公司的重要性

创意广告公司在现代社会中扮演着越来越重要的角色。随着市场竞争的加剧，许多企业已意识到，仅靠传统的广告方式是远远不够的。创意广告公司可以提供全新、有趣、令人难以忘记的宣传方式，引起受众的关注，从而促进销售和品牌影响力的提升。

创意广告公司通常由一群充满创意和思想的人组成，他们能够将客户的需求和目标转化为独特的广告策略和创意方案。他们融合了市场研究、营销策略、设计、文字、音乐等多种元素，以此展现出客户品牌的独特性和个性化，从而吸引更多的消费者。

创意广告公司的重要性在于，他们能够帮助企业以更有趣、更有吸引力的方式展示品牌形象，同时提高品牌的知名度和认知度。他们的策略通常是多维度的，包括电视、广播、电影、杂志、报纸、互联网、社交媒体等，这样能够覆盖更广泛的受众群体。

创意广告公司的优点

创意广告公司与传统广告公司的不同之处在于，他们注重创意和个性化。他们的广告策略不是机械的、单一的，而是基于深入的市场研究和客户的需求，开发出适合他们品牌的独特策略。

创意广告公司的另一个优点是，他们的广告能够吸引更多的目标消费者。这是因为他们的广告策略是针对不同受众群体的，而不是单一的广告形式。他们会使用多种媒介，以吸引更多的目标受众。

创意广告公司的另一个优点是，他们能够帮助企业建立一个强大的品牌形象。通过创意的广告策略和独特的宣传方式，他们能够在消费者心中留下深刻印象，从而帮助企业建立一个强大的品牌形象。

如何选择创意广告公司

选择创意广告公司是一项非常重要的任务。以下是一些需要考虑的因素：

经验：选择一家经验丰富的创意广告公司是非常重要的。他们能够帮助您制定最佳的广告策略，从而实现您的目标。
创意性：选择一家有创意的广告公司是非常重要的。他们能够开发出独特的广告策略和创意方案，从而帮助您的品牌脱颖而出。
业绩：选择一家业绩出色的广告公司也是非常重要的。了解他们的客户和他们所取得的成果，可以帮助您判断他们是否是最佳选择。

结论：创意广告公司对于企业来说是非常重要的。他们能够帮助企业制定最佳的广告策略，以吸引更多的目标消费者，并建立一个强大的品牌形象。选择一家经验丰富、有创意、业绩出色的广告公司是非常重要的，这将有助于实现最佳结果。

做创意的广告公司随机日志

紫金山新闻客户端全新上线！优化用户体验，提升运行速度

1、GIF调整速度：倍的慢速到倍快速，鬼畜GIF，魔性加倍！

2、接着我们打开要分屏的网页页面，然后按Shift选择网页，右键，在菜单中选择【平铺】。

3、我在南宁，我很好。走到哪，Po到哪，晒出你懂美图吧！

4、优化产品体验，修复若干问题使用中有任何问题或建议，请前往【我的】【帮助反馈】中告诉我们哦

5、支持导入其他洗衣软件的会员数据。导入会员资料到洗衣掌柜中，具体是否支持您的老软件，请咨询客服，个别软件可支持导入衣物价格等基础资料。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>詳(xiang)解(jie)DQN訓(xun)練(lian)技(ji)巧(qiao)！帶(dai)妳(ni)回(hui)到(dao)深(shen)度(du)強(qiang)化(hua)學(xue)習(xi)「夢(meng)開(kai)始(shi)的(de)地(di)方(fang)」

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】DeepMind开始稱(cheng)霸(ba)强化学习的DQN算(suan)法(fa)，都(dou)有(you)哪(na)些(xie)训练技巧？

過(guo)去(qu)十(shi)多(duo)年(nian)裏(li)，DeepMind在(zai)人(ren)工(gong)智能(neng)的發(fa)展(zhan)中(zhong)絕(jue)對(dui)有著(zhe)重(zhong)要(yao)的地位(wei)，從(cong)AlphaGo, AlphaZero到AlphaStar，再(zai)到如(ru)今(jin)的AlphaFold 2，每(mei)次(ci)DeepMind发布(bu)新產(chan)品(pin)似(si)乎(hu)都要徹(che)底(di)消(xiao)滅(mie)該(gai)行(xing)業(ye)。

圍(wei)棋(qi)界(jie)天(tian)才(cai)少(shao)年柯(ke)潔(jie)都不(bu)再下(xia)傳(chuan)統(tong)围棋，跑(pao)去练习雲(yun)頂(ding)之(zhi)弈(yi)。弈壹(yi)時(shi)，悟(wu)一世(shi)，切(qie)換(huan)賽(sai)道誓(shi)在新概(gai)念(nian)围棋奪(duo)生(sheng)涯(ya)第(di)九(jiu)冠(guan)（bushi）。

DeepMind在围棋、星(xing)際(ji)爭(zheng)霸和(he)德(de)州(zhou)撲(pu)克(ke)等(deng)取(qu)得(de)的巨(ju)大(da)成(cheng)就(jiu)，實(shi)际上(shang)都歸(gui)功(gong)於(yu)DeepMind于2013年发布的DQN算法，也(ye)是(shi)深度学习和强化学习的首(shou)次成功結(jie)合(he)。

Deep Q-Networks (DQN)于 2013 年首次发布，僅(jin)將(jiang)遊(you)戲(xi)的像(xiang)素(su)值(zhi)作(zuo)為(wei)網(wang)絡(luo)的輸(shu)入(ru)，成功在一套(tao)雅(ya)達(da)利(li)（Atari）游戏中超(chao)越(yue)之前(qian)的所(suo)有模(mo)型(xing)的得分(fen)，甚(shen)至(zhi)有三(san)個(ge)還(hai)超越了(le)骨(gu)灰(hui)級(ji)玩(wan)家(jia)的得分。

論(lun)文(wen)鏈(lian)接(jie)：https://arxiv.org/pdf/1312.5602.pdf

智能體(ti)直(zhi)接从經(jing)驗(yan)中進(jin)行学习，並(bing)成功学习到有效(xiao)的行動(dong)在當(dang)年是一項(xiang)重大突(tu)破(po)，也讓(rang)通(tong)用(yong)人工智能AGI的重回大眾(zhong)視(shi)線(xian)：計(ji)算機(ji)在諸(zhu)多任(ren)務(wu)中獲(huo)得的智能，也許(xu)比(bi)人類(lei)更(geng)强！

不过DQN的训练并沒(mei)有想(xiang)象(xiang)中那(na)麽(me)簡(jian)單(dan)！

Q-learning是什(shen)么？

Q-learning是强化学习（RL）的经典(dian)算法，简单來(lai)說(shuo)，RL智能体與(yu)環(huan)境(jing)进行交(jiao)互(hu)，如果(guo)采(cai)取的行动是「好(hao)」的，就會(hui)获得獎(jiang)勵(li)，否(fou)則(ze)获得懲(cheng)罰(fa)，强化学习算法的目(mu)標(biao)是最(zui)大化智能体获得的長(chang)期(qi)奖励總(zong)和。

在强化学习智能体和环境之間(jian)的交互循(xun)环中，每个时间步(bu)（timestep），智能体需(xu)要選(xuan)擇(ze)一个行动（action）来改(gai)變(bian)环境（environment）的狀(zhuang)態(tai)（state）。环境也提(ti)供(gong)一个奖励信(xin)號(hao)（reward signal）以(yi)表(biao)示(shi)智能体的行动是否有利。

處(chu)于一个特(te)定(ding)的游戏状态或(huo)采取一个行动的未(wei)来奖励是不難(nan)估(gu)计的，难的是你的行动对环境的影(ying)響(xiang)可(ke)能是不確(que)定的，這(zhe)也意(yi)味(wei)着你得到的奖励也是不确定的。尤(you)其(qi)是在我(wo)們(men)不知(zhi)道环境的運(yun)行規(gui)则，或是在很(hen)遙(yao)遠(yuan)的未来且(qie)状态數(shu)很多的情(qing)況(kuang)下，我们怎(zen)么能知道一个行动会带来什么奖励呢(ne)？

比如说，玩《超级馬(ma)里奧(ao)》某(mou)一關(guan)时，最佳(jia)的行动可能是在第一幀(zhen)跳(tiao)躍(yue)，但(dan)如果奖励一直在关卡(ka)的最後(hou)階(jie)段(duan)，要怎么才能知道这个行动的價(jia)值？

Q-learning采取的方法是学习一个行动-价值函(han)数（action-value function），也被(bei)称为Q函数。

Q函数为每个（状态，行动）組(zu)合分配(pei)一个价值，用来表示在某一状态下采取某一行动时預(yu)期未来回报的估计，并且Q函数为所有状态都定義(yi)了一个价值。

在Q-learning中，智能体通过与环境互动和更新采取的（状态，行动）的Q值来学习Q-函数估计价值。在采取一个行动之后，用环境中新状态的Q值来更新所有Q值。重復(fu)叠(die)代(dai)，最終(zhong)可以估计出(chu)该状态的Q值，并根(gen)據(ju)这一估计采取行动。

一些简单的游戏通过这種(zhong)方式(shi)可以估计出所有的（状态，行动）对的价值，但对于雅达利游戏来说，（状态，行动）的组合数量(liang)实在是太(tai)多了，想存(cun)儲(chu)在一个简单的表格(ge)中基(ji)本(ben)是無(wu)法实現(xian)的。

比如说在打(da)磚(zhuan)塊(kuai)游戏中，如果只(zhi)用球(qiu)拍(pai)和球，在一个300*800像素的屏(ping)幕(mu)上，状态的数量就达到了10的9次方到10的11次方，海(hai)量的状态空(kong)间情况下，引(yin)入深度神(shen)经网络就顯(xian)得很必(bi)要了。

神经网络不好训

Q-Learning和神经网络的结合在理(li)论上是非(fei)常(chang)强大的。Q-learning可以让智能体学习任何(he)決(jue)策(ce)任务，而(er)神经网络可以表示任何函数。如果成功训练，就会有大量的潛(qian)在應(ying)用場(chang)景(jing)得以实现，比如自(zi)动駕(jia)駛(shi)汽(qi)車(che)、机器(qi)人技術(shu)等。

但要训练Q-learning和神经网络的组合是非常困(kun)难的。即(ji)使(shi)经过多次在不同(tong)状态下采取行动并获得奖励的迭代，有时性(xing)能也不会提高(gao)。常見(jian)的情况就是，智能体的性能在明(ming)显改进之后开始出现下降(jiang)。

在DeepMind发布DQN论文后，这种情况仍(reng)然(ran)很常见。

Q-learning算法的每个更新步驟(zhou)都是基于该步的经歷(li)，但是，如果每走(zou)一步就更新的話(hua)，算法会因(yin)为抽(chou)樣(yang)誤(wu)差(cha)（sampling error）而导致(zhi)不穩(wen)定的更新，而抽样误差是由(you)任意分布中抽取数据點(dian)导致的。

如果你在最近(jin)的数据点的序(xu)列(lie)上进行训练，那么你看(kan)到的数据肯(ken)定都是相(xiang)似的，因为通常需要很多个时间步才能遍(bian)历到整(zheng)个状态空间，所以你訪(fang)問(wen)的下一个状态与你当前所处的状态基本上就算密(mi)切相关。样本之间的这种相关性会使得学习效率(lv)低(di)下，而将它(ta)们打散(san)后，通过打破相关性可以改善(shan)学习效果。

为了緩(huan)解这种情况，DeepMind在DQN算法中引入了一种新机制(zhi)：经验重放(fang)（Experience Replay），其中经验指(zhi)的是智能体在一个时间段內(nei)觀(guan)察(cha)到的状态、行动、奖励和下一个状态。经验重放将每个时间段的状态、行动、奖励和后續(xu)状态存储在内存中，并在每个时间段从中隨(sui)机选择一批(pi)。

对数据进行抽样训练，使每次更新使用的经验随机化，就可以打破数据点之间的关聯(lian)性，能夠(gou)降低更新的方差。由于每一步的经验都被用于许多權(quan)重的更新，这也意味着训练需要更少的数据。

在Q-Learning中，有三个使用Q函数的地方：

为了得到第一个状态的Q值用于評(ping)估哪个后续状态的Q值最高，以选择一个行动找(zhao)到该后续状态的Q值

将Q-learning与神经网络结合起(qi)来，如果直接将同一个网络用于这三个地方，也就意味着如果模型高估了一个状态的价值，那前面(mian)的状态也会被高估，因为Q-learning使用最大行动价值作为最大预期行动价值的估计，可能会导致学习到一个錯(cuo)误的Q-函数估计。

不过在学习过程(cheng)中，数值估计不精(jing)确是很正(zheng)常的，也就是说，高估是很常见的。

如果对Q值的高估在各(ge)个状态都是一致的，那这就不是一个问題(ti)。如果所有的Q值都有类似的变化，那么我们选择的行动也会是一样的。但从经验上看，实际运行通常不是这样的，也就意味着由近似的Q值产生的策略(lve)（policy）不一定会收(shou)斂(lian)到最佳策略。

解决高估问题的方法是使用Double DQN，也是DeepMind在2015年发表的另(ling)一篇(pian)论文中提出的。

论文链接：https://arxiv.org/pdf/1509.06461.pdf

Double DQN指的是模型擁(yong)有兩(liang)个深度神经网络，模型使用正在训练的网络在与环境互动时进行行动选择，Q-函数估计更新使用后续状态的Q值，这就是第二(er)个目标网络派(pai)上用场的地方。

目标网络通常是网络的一个舊(jiu)版(ban)本，用来尋(xun)找具(ju)有后续状态的最大Q值的行动，而原(yuan)始网络用来评估这个后续行动的Q值。通过将用于行动选择和行动评估的Q值解耦(ou)，就不太可能选择到高估的值了。

自此(ci)，训练DQN的坑(keng)基本都被填(tian)上了，不过强化学习后续还取得了其他(ta)重大进展，比如围棋領(ling)域(yu)的AlphaGo，星际争霸、德州扑克等领域都被攻(gong)克。

但一切都是自DQN发布之后，深度强化学习才进入春(chun)天，DQN也展现了其解决通用问题的潜力(li)。

參(can)考(kao)資(zi)料(liao)：

https://blog.delta-academy.xyz/why-deepmind-dqn-hard-to-train

如果您(nin)在2015年9月(yue)7号到2015年9月14日(ri)，新智元上线第一周(zhou)就关註(zhu)了我们，請(qing)在新智元公(gong)众号评论區(qu)留(liu)言(yan)并联系(xi)新智元小(xiao)助(zhu)手(shou)，我们会精选50位幸(xing)运读者(zhe)并贈(zeng)書(shu)一冊(ce)作为紀(ji)念。返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：