黑龙江都市频道直播

黑龙江都市频道直播：打造地方新闻宣传的重要平台

黑龙江都市频道是黑龙江省唯一一家全天24小时播出的综合性城市频道，作为省内媒体领域的重要一员，其直播节目的影响力和传播力不断扩大。黑龙江都市频道直播节目的成功举办，既反映了当前广大观众对本地新闻宣传的迫切需求，也为地方新闻宣传提供了一个全新的平台。

黑龙江都市频道直播的特点和优势

黑龙江都市频道直播以独家原创栏目和深入报道为特色，通过现场直播、大型专题、短视频等形式，让观众切身感受到新闻的力量和价值。其中，通过多种渠道、各类直播，为观众带来丰富多彩的文化、体育、娱乐等节目，不仅丰富了广大观众的精神生活，也提高了黑龙江省的国际化形象。

此外，黑龙江都市频道直播节目的成功还得益于其具有的优势。首先，黑龙江都市频道作为省内最具权威性和影响力的频道之一，其报道的内容广泛而丰富。其次，黑龙江都市频道直播节目虽以地方新闻报道为主，但其服务面向的是全省范围内的广大观众，具有较强的覆盖面和传播力。最后，黑龙江都市频道直播节目在制作方面也借助了现代化的技术手段和多种媒介形式，使其节目更加生动、精彩、富有感染力。

黑龙江都市频道直播的重要意义

黑龙江都市频道直播作为地方新闻宣传的重要平台，在推动地方媒体的整体发展和提高新闻报道的质量方面发挥了重要的作用。其意义主要体现在以下几个方面:

1.促进地方新闻宣传的发展。黑龙江都市频道直播节目通过深入、全面、准确地报道地方新闻，使广大观众能够及时了解到本地区的新闻动态，同时也为当地的文化、经济、科技等领域的发展提供了展示的平台。

2.增强地方新闻报道的影响力。黑龙江都市频道直播节目提供了全新的报道形式和媒介手段，充分展示了地方新闻报道的魅力和影响力，同时也拓展了地方新闻报道的传播渠道。

3.提高地方媒体的整体实力。黑龙江都市频道直播节目的成功举办，不仅对黑龙江都市频道自身的发展和壮大具有重要意义，同时也为其他地方媒体的发展提供了借鉴参考的意义。

总结

总的来说，黑龙江都市频道直播作为地方新闻宣传的重要平台，其特点和优势明显，其重要意义也得到了广泛的认可和肯定。在未来的发展中，黑龙江都市频道直播应坚持原则性、系统性、创新性和实效性相统一的方针，更好地发挥其在地方新闻宣传中的作用和价值。

黑龙江都市频道直播特色

1、可以不断的去进行战斗冒险，去解锁更多的技能与武器装备等等；

2、拥有教学辅助功能，让教师更好的开展教学工作

3、你可以学习如何绘制自己的漫画和最喜爱的动画与这个聪明的教程应用程序。

4、兰州新闻，我最新，图文视频电视电台政策信息，消息推送实时送达你手中!

5、后宫攻略单机版下载

黑龙江都市频道直播亮点

1、利用先进的匹配技术，打造迅捷安全的出行约车平台。

2、喜欢的商品统统一键搜藏，让你随时都可以直接找到自己喜欢的商品。

3、这里有最新的系统，在很多细节方面进行了中文和处理，还增加了新功能;

4、让孩子体会到：原来学习是一件很美好的事情，“最美课本”让学生更有粘性

5、高度自由的社交玩法，邂逅你的仙缘;

keyibuduandequjinxingzhandoumaoxian，qujiesuogengduodejinengyuwuqizhuangbeidengdeng；yongyoujiaoxuefuzhugongneng，rangjiaoshigenghaodekaizhanjiaoxuegongzuonikeyixuexiruhehuizhizijidemanhuahezuixiaidedonghuayuzhegecongmingdejiaochengyingyongchengxu。lanzhouxinwen，wozuixin，tuwenshipindianshidiantaizhengcexinxi，xiaoxituisongshishisongdanishouzhong!hougonggonglvedanjibanxiazaiAlphaZero的(de)黑(hei)箱(xiang)打(da)開(kai)了(le)！DeepMind論(lun)文(wen)登(deng)上(shang)PNAS

新(xin)智(zhi)元(yuan)報(bao)道(dao)

來(lai)源(yuan)：AI科(ke)技(ji)評(ping)论（李(li)梅(mei) 陳(chen)彩(cai)嫻(xian)）

編(bian)輯(ji)：好(hao)困(kun) Aeneas

【新智元導(dao)讀(du)】AlphaZero 表(biao)明(ming)神(shen)經(jing)網(wang)絡(luo)可(ke)以(yi)學(xue)到(dao)人(ren)類(lei)可理(li)解(jie)的表征(zheng)。

國(guo)際(ji)象(xiang)棋(qi)壹(yi)直(zhi)是(shi) AI 的試(shi)驗(yan)場(chang)。70 年(nian)前(qian)，艾(ai)倫(lun)·圖(tu)靈(ling)猜(cai)想(xiang)可以制(zhi)造(zao)一臺(tai)能(neng)夠(gou)自(zi)我(wo)学習(xi)並(bing)不(bu)斷(duan)從(cong)自身(shen)经验中(zhong)獲(huo)得(de)改(gai)進(jin)的下(xia)棋機(ji)器(qi)。上世(shi)紀(ji)出(chu)現(xian)的「深(shen)藍(lan)」第(di)一次(ci)擊(ji)敗(bai)人类，但(dan)它(ta)依(yi)賴(lai)專(zhuan)家(jia)编碼(ma)人类的国际象棋知(zhi)識(shi)，而(er)誕(dan)生(sheng)於(yu) 2017 年的 AlphaZero 作(zuo)為(wei)一種(zhong)神经网络驅(qu)動(dong)的強(qiang)化(hua)学习机器實(shi)现了图灵的猜想。

AlphaZero 無(wu)需(xu)使(shi)用(yong)任(ren)何(he)人工(gong)設(she)計(ji)的啟(qi)發(fa)式(shi)算(suan)法(fa)，也(ye)不需要(yao)觀(guan)看(kan)人类下棋，而是完(wan)全(quan)通(tong)過(guo)自我對(dui)弈(yi)进行(xing)訓(xun)練(lian)。

那(na)麽(me)，它真(zhen)的学习了人类關(guan)于国际象棋的概(gai)念(nian)嗎(ma)？這(zhe)是一個(ge)神经网络的可解釋(shi)性(xing)問(wen)題(ti)。

对此(ci)，AlphaZero 的作者(zhe) Demis Hassabis 與(yu) DeepMind 的同(tong)事(shi)以及(ji)谷(gu)歌(ge)大(da)腦(nao)的研(yan)究(jiu)員(yuan)合(he)作了一項(xiang)研究，在(zai) AlphaZero 的神经网络中找(zhao)到了人类国际象棋概念的證(zheng)據(ju)，展(zhan)示(shi)了网络在训练过程(cheng)中获得这些(xie)概念的時(shi)間(jian)和(he)位(wei)置(zhi)，還(hai)发现了 AlphaZero 与人类不同的下棋風(feng)格(ge)。论文近(jin)期(qi)发表于 PNAS。

论文地(di)址(zhi)：https://www.pnas.org/doi/epdf/10.1073/pnas.2206625119

AlphaZero 在训练中获得人类象棋概念

AlphaZero 的网络架(jia)構(gou)包(bao)含(han)一个骨(gu)幹(gan)网络殘(can)差(cha)网络（ResNet）和單(dan)獨(du)的 Policy Head、Value Head，ResNet 由(you)一系(xi)列(lie)由网络塊(kuai)和跳(tiao)躍(yue)連(lian)接(jie)（skip connection）的層(ceng)构成(cheng)。

在训练叠(die)代(dai)方(fang)面(mian)，AlphaZero 从具(ju)有(you)隨(sui)机初(chu)始(shi)化參(can)數(shu)的神经网络开始，反(fan)復(fu)与自身对弈，学习对棋子(zi)位置的评估(gu)，根(gen)据在此过程中生成的数据进行多(duo)次训练。

为了確(que)定(ding) AlphaZero 网络在多大程度(du)上表征了人类所(suo)擁(yong)有的国际象棋概念，这项研究使用了稀(xi)疏(shu)線(xian)性探(tan)測(ce)方法，將(jiang)网络在训练过程中参数的變(bian)化映(ying)射(she)为人类可理解概念的变化。

首(shou)先(xian)将概念定義(yi)为如(ru)图 1 中橙(cheng)色(se)所示的用戶(hu)定义函(han)数。廣(guang)义线性函数 g 作为一个探針(zhen)被(bei)训练用于近似(si)一个国际象棋概念 c。近似值(zhi) g 的質(zhi)量(liang)表示层（线性）对概念进行编码的程度。对于給(gei)定概念，对每(mei)个网络中所有层的训练过程中產(chan)生的网络序(xu)列重(zhong)复該(gai)过程。

图 1：在 AlphaZero 网络（蓝色）中探索(suo)人类编码的国际象棋概念。

比(bi)如，可以用一个函数来确定我方或(huo)地方是否(fou)有「主(zhu)教(jiao)」 (?) ：

當(dang)然(ran)，还有很(hen)多比这个例(li)子更(geng)复雜(za)的象棋概念，比如对于棋子的机动性（mobility），可以编寫(xie)一个函数来比較(jiao)我方和敵(di)方移(yi)动棋子时的得分(fen)。

在本(ben)实验中，概念函数是已(yi)经預(yu)先指(zhi)定的，封(feng)裝(zhuang)了国际象棋这一特(te)定領(ling)域(yu)的知识。

接下来是对探针进行训练。研究人员将 ChessBase 数据集(ji)中 10 的 5 次方个自然出现的象棋位置作为训练集，从深度为 d 的网络激(ji)活(huo)训练一个稀疏回(hui)歸(gui)探针 g，来预测给定概念 c 的值。

通过比较 AlphaZero 自学习周(zhou)期中不同训练步(bu)驟(zhou)的网络，以及每个网络中不同层的不同概念探针的分数，就(jiu)可以提(ti)取(qu)网络学习到某(mou)个概念的时间和位置。

最(zui)終(zhong)得到每个概念的 what-when-where 图，对「被计算的概念是什(shen)么」、「该计算在网络的哪(na)个位置发生」、「概念在网络训练的什么时间出现」这三(san)个指標(biao)进行可視(shi)化。如图2。

图2：从 A 到 B 的概念分別(bie)是「对總(zong)分的评估」、「我方被将軍(jun)了吗」、「对威(wei)脅(xie)的评估」、「我方能吃(chi)掉(diao)敌方的皇(huang)後(hou)吗」、「敌方这一步棋會(hui)将死(si)我方吗」、「对子力(li)分数的评估」、「子力分数」、「我方有王(wang)城(cheng)兵(bing)吗」。

可以看到，C 图中，随著(zhu)(zhe) AlphaZero 变得更强，「threats」概念的函数和 AlphaZero 的表征（可由线性探针檢(jian)测到）变得越(yue)来越不相(xiang)关。

这樣(yang)的 what-when-where 图包括(kuo)探测方法比较所需的兩(liang)个基(ji)线，一是輸(shu)入(ru)回归，在第 0 层顯(xian)示，二(er)是来自具有随机權(quan)重的网络激活的回归，在训练步骤 0 處(chu)显示。上图的結(jie)果(guo)可以得出结论，回归精(jing)度的变化完全由网络表征的变化来決(jue)定。

此外(wai)，許(xu)多 what-when-where 图的结果都(dou)显示了一个相同的模(mo)式，即(ji)整(zheng)个网络的回归精度一直都很低(di)，直到大約(yue) 32k 步时才(cai)开始随着网络深度的增(zeng)加(jia)而迅(xun)速(su)提高(gao)，随后穩(wen)定下来并在后面的层中保(bao)持(chi)不变。所以，所有与概念相关的计算都在网络的相对早(zao)期发生，而之(zhi)后的残差块要么執(zhi)行移动選(xuan)擇(ze)，要么计算给定概念集之外的特征。

而且(qie)，随着训练的进行，许多人类定义的概念都可以从 AlphaZero 的表征中预测到，且预测準(zhun)确率(lv)很高。

对于更高級(ji)的概念，研究人员发现 AlphaZero 掌(zhang)握(wo)它們(men)的位置存(cun)在差異(yi)。首先在 2k 训练步骤时与零(ling)显著不同的概念是「material」和「space」；更复杂的概念如「king_safety」、「threats」、「mobility」，則(ze)是在 8k 训练步骤时显著得变为非(fei)零，且在 32k 训练步骤之后才有实质增長(chang)。这个结果与图 2 中 what-when-where 图显示的急(ji)劇(ju)上升(sheng)的點(dian)一致(zhi)。

另(ling)外，大多数 what-when-where 图的一个显著特征是网络的回归精度在开始階(jie)段(duan)增长迅速，随后達(da)到平(ping)稳狀(zhuang)態(tai)或下降(jiang)。这表明目(mu)前从 AlphaZero 身上所发现的概念集还只(zhi)是检测了网络的较早层，要了解后面的层，需要新的概念检测技術(shu)。

AlphaZero 的开局(ju)策(ce)略(lve)与人类不同

在观察(cha)到 AlphaZero 学习了人类国际象棋概念后，研究人员进一步针对开局策略探討(tao)了 AlphaZero 对于象棋戰(zhan)术的理解，因(yin)为开局的选择也隱(yin)含了棋手(shou)对于相关概念的理解。

研究人员观察到，AlphaZero 与人类的开局策略并不相同：随着时间的推(tui)移，AlphaZero 縮(suo)小(xiao)了选择範(fan)圍(wei)，而人类则是擴(kuo)大选择范围。

如图 3A 是人类对白(bai)棋的第一步偏(pian)好的歷(li)史(shi)演(yan)变，早期阶段，流(liu)行将 e4 作为第一步棋，后来的开局策略则变得更平衡(heng)、更灵活。

图 3B 则是 AlphaZero 的开局策略随训练步骤的演变。可以看到，AlphaZero 的开局总是平等(deng)地权衡所有选择，然后逐(zhu)漸(jian)缩小选择范围。

图 3：随着训练步骤和时间的推移，AlphaZero 和人类对第一步的偏好比较。

这与人类知识的演变形(xing)成鮮(xian)明对比，人类知识从 e4 开始逐渐扩展，而 AlphaZero 在训练的后期阶段明显偏向(xiang)于 d4。不过，这种偏好不需要过度解释，因为自我对弈训练是基于快(kuai)速遊(you)戲(xi)，为了促(cu)进探索增加了许多随机性。

造成这种差异的原(yuan)因尚(shang)不清(qing)楚(chu)，但它反映了人类与人工神经网络之间的根本差异。一个可能的因素(su)，或许是关于人类象棋的历史数据更强調(tiao)大師(shi)玩(wan)家的集體(ti)知识，而 AlphaZero 的数据包括了初学者级别下棋和单一进化策略。

那么，当 AlphaZero 的神经网络经过多次训练后，是否会出对某些开局策略显示出稳定的偏好？

研究结果是，许多情(qing)況(kuang)下，这种偏好在不同训练中并不稳定，AlphaZero 的开局策略非常(chang)多样。比如在经典(dian)的Ruy Lopez 开局（俗(su)稱(cheng)「西(xi)班(ban)牙(ya)开局」）中，AlphaZero 在早期有选择黑色的偏好，并遵(zun)循(xun)典型(xing)的下法，即 1.e4 e5，2.Nf3 Nc6，3.Bb5。

图 4：Ruy Lopez 开局

而在不同的训练中，AlphaZero 会逐渐收(shou)斂(lian)到 3.f6 和 3.a6 中的一个。此外，AlphaZero 模型的不同版(ban)本都各(ge)自显示出对一个动作的强烈(lie)偏好，且这种偏好在训练早期就得以建(jian)立(li)。

这进一步证明，国际象棋的成功(gong)下法多种多样，这种多样性不僅(jin)存在于人与机器之间，也存在于 AlphaZero 的不同训练迭代中。

AlphaZero 掌握知识的过程

那么，以上关于开局策略的研究结果，与 AlphaZero 对概念的理解有什么关聯(lian)呢(ne)？

这项研究发现，在各种概念的 what-when-where 图中有一个明显的拐(guai)点，与开局偏好的显著变化正(zheng)好相吻(wen)合，尤(you)其(qi)是 material 和 mobility的概念似乎(hu)与开局策略直接相关。

material 概念主要是在训练步骤 10k 和 30k 之间学习的，piece mobility 的概念也在同一时期逐步融(rong)入到 AlphaZero 的 value head 中。对棋子的 material 價(jia)值的基本理解應(ying)该先于对棋子 mobility 的理解。然后 AlphaZero 将这一理论納(na)入到 25k 到 60k 训练步骤之间开局偏好中。

作者进一步分析(xi)了 AlphaZero 网络关于国际象棋的知识的演变过程：首先发现棋力；接着是短(duan)时间窗(chuang)口(kou)內(nei)基礎(chu)知识的爆(bao)炸(zha)式增长，主要是与 mobility 相关的一些概念；最后是改进阶段，神经网络的开局策略在数十(shi)萬(wan)个训练步骤中得到完善(shan)。雖(sui)然整体学习的时间很长，但特定的基础能力会在相对较短的时间内迅速出现。

前国际象棋世界(jie)冠(guan)军 Vladimir Kramnik 也被請(qing)来为这一结论提供(gong)佐(zuo)证，他(ta)的观察与上述(shu)过程一致。

最后总结一下，这项工作证明了 AlphaZero 网络所学习的棋盤(pan)表示能够重建许多人类国际象棋概念，并詳(xiang)細(xi)說(shuo)明了网络所学习的概念内容(rong)、在训练时间中学习概念的时间以及计算概念的网络位置。而且，AlphaZero 的下棋风格与人类并不相同。

既(ji)然我们以人类定义的国际象棋概念来理解神经网络，那么下一个问题将会是：神经网络能够学习人类知识以外的東(dong)西吗？返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：