电视广告的利与弊

网络报

网络资源与电视广告的利与弊

1. 网络资源的利与弊

网络资源指的是我们在使用电脑、手机、平板等电子设备连接互联网时所能访问到的各种信息。网络资源的利与弊对于个人和社会来说都有很大的影响。

1.1 利：便捷快速获取信息

网络资源让我们能够便捷快速地获取到各种信息，无论是新闻、娱乐、教育、科技等领域，我们只需要轻点鼠标，就可以轻松浏览到各种网站和社交媒体平台上的内容。这不仅方便了我们的生活和学习，还帮助我们更好地了解世界各地的文化和风俗习惯。

1.2 弊：信息真实性难以保证

然而，网络资源也存在一些弊端。因为信息的发布和传播非常容易，所以有些信息的真实性难以保证。很多时候，我们需要通过多个平台和渠道核实某些信息是否准确和可靠。此外，网络资源的便利性也可能会导致我们沉迷于网络，对现实的生活和人际关系造成影响。

2. 电视广告的利与弊

电视广告是一种在电视台播出的商业广告，这种广告形式具有很高的知名度和较广的传播范围。然而，电视广告也存在一些利与弊。

2.1 利：广告效果显著

电视广告的优势在于传播范围广、有声有色、视觉效果好，所以往往能引起更多消费者的注意。另外，电视广告也能够让企业在短时间内快速扩大知名度，提高品牌曝光率，从而吸引更多的消费者加入进来。

2.2 弊：成本高昂

电视广告的成本十分高昂，于制作费、投放费、播出时间等方面都需要大量资金投入，这是对于中小企业比较困难的开支。此外，由于广告是在一个固定时间段内播放，很多观众在观看电视时会快进广告或者选择切换到其他频道，因此广告的效果不是绝对的。

3. 网络资源与电视广告的适用范围

网络资源和电视广告在适用范围上也存在一些不同。

3.1 网络资源的广泛适用性

网络资源是随时随地都可以访问到的，而且可以通过不同的设备访问，比如电脑、手机、平板等，因此可以适用于各种领域和场合，包括生活、娱乐、工作、学习等。

3.2 电视广告的局限性

电视广告主要适用于特定的时间和场合，比如某个电视节目或者体育比赛，因此它的适用范围和受众群体比较有限。另外，电视广告的语音和视觉效果受到时间和空间限制，也不利于产品的细节展示。

4. 总结

综上所述，网络资源和电视广告都是商业活动的重要手段。网络资源具有传播速度快、信息量大等优势，但也难以保证信息真实性和使用者的合理性。电视广告则具有广泛的影响力，但成本较高，对于中小企业可能有一定难度。在选择使用这两种方式时，需要充分考虑所处的行业、目标受众、预算等因素，以充分发挥其效益。话题：电视广告的利与弊Q1：电视广告的优势有哪些？回答：电视广告的优势在于传播范围广、有声有色、视觉效果好，能够引起更多消费者的注意。另外，它也能够快速提高品牌知名度和曝光率。Q2：电视广告的局限性有哪些？回答：电视广告主要适用于特定的时间和场合，比如某个电视节目或者体育比赛，因此它的适用范围和受众群体比较有限。另外，电视广告的成本较高，效果也难以得到保证。Q3：如何选择合适的广告手段？回答：在选择广告手段时，需要充分考虑所处的行业、目标受众、预算等因素。如果是中小企业，可以选择网络资源等相对低成本的推广方式，如果是大企业则可以选择电视广告等传播范围广的方式。

电视广告的利与弊随机日志

RustDesk的一键式无人值守访问，使您能轻而易举设置同事的打印机，或在您的部门内部署新工具。

1、从手动构建和管理可视化项目计划中解放出来。

2、悦库网盘的自主研发技术在单个共享达到数百万文件时依然能保持和本地文件操作一样的流畅速度，无任何延时。

3、月好友分享周好货来袭，分享赚钱，自购省钱！

4、禁止首次关闭软件提示是否创建桌面快捷方式！

5、分布式哈希表(DHT)、对等交换协议(PEX)、本地对等发现(LSD)

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>詳(xiang)解(jie)DQN訓(xun)練(lian)技(ji)巧(qiao)！帶(dai)妳(ni)回(hui)到(dao)深(shen)度(du)強(qiang)化(hua)學(xue)習(xi)「夢(meng)開(kai)始(shi)的(de)地(di)方(fang)」

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】DeepMind开始稱(cheng)霸(ba)强化学习的DQN算(suan)法(fa)，都(dou)有(you)哪(na)些(xie)训练技巧？

過(guo)去(qu)十(shi)多(duo)年(nian)裏(li)，DeepMind在(zai)人(ren)工(gong)智能(neng)的發(fa)展(zhan)中(zhong)絕(jue)對(dui)有著(zhe)重(zhong)要(yao)的地位(wei)，從(cong)AlphaGo, AlphaZero到AlphaStar，再(zai)到如(ru)今(jin)的AlphaFold 2，每(mei)次(ci)DeepMind发布(bu)新產(chan)品(pin)似(si)乎(hu)都要徹(che)底(di)消(xiao)滅(mie)該(gai)行(xing)業(ye)。

圍(wei)棋(qi)界(jie)天(tian)才(cai)少(shao)年柯(ke)潔(jie)都不(bu)再下(xia)傳(chuan)統(tong)围棋，跑(pao)去练习雲(yun)頂(ding)之(zhi)弈(yi)。弈壹(yi)時(shi)，悟(wu)一世(shi)，切(qie)換(huan)賽(sai)道誓(shi)在新概(gai)念(nian)围棋奪(duo)生(sheng)涯(ya)第(di)九(jiu)冠(guan)（bushi）。

DeepMind在围棋、星(xing)際(ji)爭(zheng)霸和(he)德(de)州(zhou)撲(pu)克(ke)等(deng)取(qu)得(de)的巨(ju)大(da)成(cheng)就(jiu)，實(shi)际上(shang)都歸(gui)功(gong)於(yu)DeepMind于2013年发布的DQN算法，也(ye)是(shi)深度学习和强化学习的首(shou)次成功結(jie)合(he)。

Deep Q-Networks (DQN)于 2013 年首次发布，僅(jin)將(jiang)遊(you)戲(xi)的像(xiang)素(su)值(zhi)作(zuo)為(wei)網(wang)絡(luo)的輸(shu)入(ru)，成功在一套(tao)雅(ya)達(da)利(li)（Atari）游戏中超(chao)越(yue)之前(qian)的所(suo)有模(mo)型(xing)的得分(fen)，甚(shen)至(zhi)有三(san)個(ge)還(hai)超越了(le)骨(gu)灰(hui)級(ji)玩(wan)家(jia)的得分。

論(lun)文(wen)鏈(lian)接(jie)：https://arxiv.org/pdf/1312.5602.pdf

智能體(ti)直(zhi)接从經(jing)驗(yan)中進(jin)行学习，並(bing)成功学习到有效(xiao)的行動(dong)在當(dang)年是一項(xiang)重大突(tu)破(po)，也讓(rang)通(tong)用(yong)人工智能AGI的重回大眾(zhong)視(shi)線(xian)：計(ji)算機(ji)在諸(zhu)多任(ren)務(wu)中獲(huo)得的智能，也許(xu)比(bi)人類(lei)更(geng)强！

不过DQN的训练并沒(mei)有想(xiang)象(xiang)中那(na)麽(me)簡(jian)單(dan)！

Q-learning是什(shen)么？

Q-learning是强化学习（RL）的经典(dian)算法，简单來(lai)說(shuo)，RL智能体與(yu)環(huan)境(jing)进行交(jiao)互(hu)，如果(guo)采(cai)取的行动是「好(hao)」的，就會(hui)获得獎(jiang)勵(li)，否(fou)則(ze)获得懲(cheng)罰(fa)，强化学习算法的目(mu)標(biao)是最(zui)大化智能体获得的長(chang)期(qi)奖励總(zong)和。

在强化学习智能体和环境之間(jian)的交互循(xun)环中，每个时间步(bu)（timestep），智能体需(xu)要選(xuan)擇(ze)一个行动（action）来改(gai)變(bian)环境（environment）的狀(zhuang)態(tai)（state）。环境也提(ti)供(gong)一个奖励信(xin)號(hao)（reward signal）以(yi)表(biao)示(shi)智能体的行动是否有利。

處(chu)于一个特(te)定(ding)的游戏状态或(huo)采取一个行动的未(wei)来奖励是不難(nan)估(gu)计的，难的是你的行动对环境的影(ying)響(xiang)可(ke)能是不確(que)定的，這(zhe)也意(yi)味(wei)着你得到的奖励也是不确定的。尤(you)其(qi)是在我(wo)們(men)不知(zhi)道环境的運(yun)行規(gui)则，或是在很(hen)遙(yao)遠(yuan)的未来且(qie)状态數(shu)很多的情(qing)況(kuang)下，我们怎(zen)么能知道一个行动会带来什么奖励呢(ne)？

比如说，玩《超级馬(ma)里奧(ao)》某(mou)一關(guan)时，最佳(jia)的行动可能是在第一幀(zhen)跳(tiao)躍(yue)，但(dan)如果奖励一直在关卡(ka)的最後(hou)階(jie)段(duan)，要怎么才能知道这个行动的價(jia)值？

Q-learning采取的方法是学习一个行动-价值函(han)数（action-value function），也被(bei)称为Q函数。

Q函数为每个（状态，行动）組(zu)合分配(pei)一个价值，用来表示在某一状态下采取某一行动时預(yu)期未来回报的估计，并且Q函数为所有状态都定義(yi)了一个价值。

在Q-learning中，智能体通过与环境互动和更新采取的（状态，行动）的Q值来学习Q-函数估计价值。在采取一个行动之后，用环境中新状态的Q值来更新所有Q值。重復(fu)叠(die)代(dai)，最終(zhong)可以估计出(chu)该状态的Q值，并根(gen)據(ju)这一估计采取行动。

一些简单的游戏通过这種(zhong)方式(shi)可以估计出所有的（状态，行动）对的价值，但对于雅达利游戏来说，（状态，行动）的组合数量(liang)实在是太(tai)多了，想存(cun)儲(chu)在一个简单的表格(ge)中基(ji)本(ben)是無(wu)法实現(xian)的。

比如说在打(da)磚(zhuan)塊(kuai)游戏中，如果只(zhi)用球(qiu)拍(pai)和球，在一个300*800像素的屏(ping)幕(mu)上，状态的数量就达到了10的9次方到10的11次方，海(hai)量的状态空(kong)间情况下，引(yin)入深度神(shen)经网络就顯(xian)得很必(bi)要了。

神经网络不好训

Q-Learning和神经网络的结合在理(li)论上是非(fei)常(chang)强大的。Q-learning可以让智能体学习任何(he)決(jue)策(ce)任务，而(er)神经网络可以表示任何函数。如果成功训练，就会有大量的潛(qian)在應(ying)用場(chang)景(jing)得以实现，比如自(zi)动駕(jia)駛(shi)汽(qi)車(che)、机器(qi)人技術(shu)等。

但要训练Q-learning和神经网络的组合是非常困(kun)难的。即(ji)使(shi)经过多次在不同(tong)状态下采取行动并获得奖励的迭代，有时性(xing)能也不会提高(gao)。常見(jian)的情况就是，智能体的性能在明(ming)显改进之后开始出现下降(jiang)。

在DeepMind发布DQN论文后，这种情况仍(reng)然(ran)很常见。

Q-learning算法的每个更新步驟(zhou)都是基于该步的经歷(li)，但是，如果每走(zou)一步就更新的話(hua)，算法会因(yin)为抽(chou)樣(yang)誤(wu)差(cha)（sampling error）而导致(zhi)不穩(wen)定的更新，而抽样误差是由(you)任意分布中抽取数据點(dian)导致的。

如果你在最近(jin)的数据点的序(xu)列(lie)上进行训练，那么你看(kan)到的数据肯(ken)定都是相(xiang)似的，因为通常需要很多个时间步才能遍(bian)历到整(zheng)个状态空间，所以你訪(fang)問(wen)的下一个状态与你当前所处的状态基本上就算密(mi)切相关。样本之间的这种相关性会使得学习效率(lv)低(di)下，而将它(ta)们打散(san)后，通过打破相关性可以改善(shan)学习效果。

为了緩(huan)解这种情况，DeepMind在DQN算法中引入了一种新机制(zhi)：经验重放(fang)（Experience Replay），其中经验指(zhi)的是智能体在一个时间段內(nei)觀(guan)察(cha)到的状态、行动、奖励和下一个状态。经验重放将每个时间段的状态、行动、奖励和后續(xu)状态存储在内存中，并在每个时间段从中隨(sui)机选择一批(pi)。

对数据进行抽样训练，使每次更新使用的经验随机化，就可以打破数据点之间的关聯(lian)性，能夠(gou)降低更新的方差。由于每一步的经验都被用于许多權(quan)重的更新，这也意味着训练需要更少的数据。

在Q-Learning中，有三个使用Q函数的地方：

为了得到第一个状态的Q值用于評(ping)估哪个后续状态的Q值最高，以选择一个行动找(zhao)到该后续状态的Q值

将Q-learning与神经网络结合起(qi)来，如果直接将同一个网络用于这三个地方，也就意味着如果模型高估了一个状态的价值，那前面(mian)的状态也会被高估，因为Q-learning使用最大行动价值作为最大预期行动价值的估计，可能会导致学习到一个錯(cuo)误的Q-函数估计。

不过在学习过程(cheng)中，数值估计不精(jing)确是很正(zheng)常的，也就是说，高估是很常见的。

如果对Q值的高估在各(ge)个状态都是一致的，那这就不是一个问題(ti)。如果所有的Q值都有类似的变化，那么我们选择的行动也会是一样的。但从经验上看，实际运行通常不是这样的，也就意味着由近似的Q值产生的策略(lve)（policy）不一定会收(shou)斂(lian)到最佳策略。

解决高估问题的方法是使用Double DQN，也是DeepMind在2015年发表的另(ling)一篇(pian)论文中提出的。

论文链接：https://arxiv.org/pdf/1509.06461.pdf

Double DQN指的是模型擁(yong)有兩(liang)个深度神经网络，模型使用正在训练的网络在与环境互动时进行行动选择，Q-函数估计更新使用后续状态的Q值，这就是第二(er)个目标网络派(pai)上用场的地方。

目标网络通常是网络的一个舊(jiu)版(ban)本，用来尋(xun)找具(ju)有后续状态的最大Q值的行动，而原(yuan)始网络用来评估这个后续行动的Q值。通过将用于行动选择和行动评估的Q值解耦(ou)，就不太可能选择到高估的值了。

自此(ci)，训练DQN的坑(keng)基本都被填(tian)上了，不过强化学习后续还取得了其他(ta)重大进展，比如围棋領(ling)域(yu)的AlphaGo，星际争霸、德州扑克等领域都被攻(gong)克。

但一切都是自DQN发布之后，深度强化学习才进入春(chun)天，DQN也展现了其解决通用问题的潜力(li)。

參(can)考(kao)資(zi)料(liao)：

https://blog.delta-academy.xyz/why-deepmind-dqn-hard-to-train

如果您(nin)在2015年9月(yue)7号到2015年9月14日(ri)，新智元上线第一周(zhou)就关註(zhu)了我们，請(qing)在新智元公(gong)众号评论區(qu)留(liu)言(yan)并联系(xi)新智元小(xiao)助(zhu)手(shou)，我们会精选50位幸(xing)运读者(zhe)并贈(zeng)書(shu)一冊(ce)作为紀(ji)念。返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：