大众最新平面广告，惊艳视觉享受！

大众最新平面广告的惊艳视觉享受！是一篇让人感到兴奋的文章。如果你正在寻找新的灵感，或者只是想了解一些关于市场营销的最新趋势，那么你来对地方了。本文将通过以下内容，详细阐述大众最新平面广告的惊艳视觉享受！

第一部分：品牌设计的重要性

在市场营销中，品牌设计一直是一个重要的领域。它可以影响消费者对品牌的印象。随着市场的竞争越来越激烈，品牌设计的重要性也越来越大。在大众最新平面广告中，品牌设计起到了关键的作用。通过对品牌设计的重新构思和改变，大众创造了一个全新的形象，使消费者更容易记住他们的品牌。

品牌设计不仅仅是一个图案或者一个标志。它需要与品牌的价值观和产品理念保持一致。在大众最新平面广告中，品牌设计不仅包括大众汽车的标志，还涉及到广告整体的视觉效果和色彩搭配，以及广告中的文字和排版。这些元素共同构成了一个完整的品牌形象，使大众汽车在消费者心中留下了深刻的印象。

第二部分：创新的广告策略

除了品牌设计外，广告策略的创新也是大众最新平面广告成功的关键。在大众最新平面广告中，大众汽车不仅仅是展示了他们的汽车，而是通过与消费者联系在一起，与其共同创造了一个美好的未来。这种创新的广告策略，让消费者感到了自己在大众汽车的广告中扮演了重要的角色。

广告策略创新还体现在大众最新平面广告中的创意和创新的形式上。大众汽车不仅仅是展示了自己的汽车，而是将它们融入到与消费者有关的场景之中。例如，在广告中展示了一对夫妻在旅行时驾驶大众汽车的情景。这种广告形式，不仅仅可以让消费者看到大众汽车的性能和外观，还可以让消费者感受到大众汽车带给他们的生活乐趣。

第三部分：多元化的广告策略

在市场上，很少有一种广告策略可以适用于所有的消费者。因此，大众最新平面广告采取了多元化的广告策略。他们采用了不同的广告形式和媒介，以吸引不同的消费者。例如，在大众最新平面广告中，他们不仅可以通过电视广告来宣传自己的汽车，还可以通过社交媒体和电子邮件等渠道。这些不同的形式和媒介，可以让大众汽车的广告更加接近消费者，从而达到更好的宣传效果。

多元化的广告策略还可以反映在广告的内容上。在大众最新平面广告中，大众汽车不仅仅是展示他们的汽车，还包括了一些有趣的事情。例如，在一些广告中，大众汽车展示了一些有趣的活动和娱乐活动，让消费者感受到大众汽车不仅仅是一辆汽车，更是一种生活方式和品质。

第四部分：数字化技术的运用

随着消费者使用数字化技术的增加，数字化技术在市场营销中的作用越来越大。在大众最新平面广告中，数字化技术得到了广泛的运用。例如，在大众汽车的网站上，他们不仅可以展示他们的汽车，还可以在网站上预约试驾和咨询。这种数字化技术的应用，使大众汽车与消费者更加贴近，提高了消费者的购买体验。

数字化技术的应用还可以反映在大众汽车的广告中。大众汽车不仅仅是通过传统媒介来宣传他们的汽车，还可以通过数字化媒介，例如社交媒体和电子邮件来宣传。这种数字化技术的应用，可以让大众汽车的广告更加贴近消费者，从而更加有效地宣传他们的品牌。

总结

综上所述，大众最新平面广告的惊艳视觉享受！不仅仅是一个品牌形象的塑造，更是一种创新的广告策略、多元化的广告形式和数字化技术的应用。通过这些创新和改变，大众汽车成功地吸引了更多的消费者，并在市场上赢得了更大的份额。

问答话题

1. 大众最新平面广告的创新在哪里？

大众最新平面广告的创新体现在品牌设计、广告策略、广告形式和数字化技术的应用等方面。通过这些创新，大众汽车成功地吸引了更多的消费者，并在市场上赢得了更大的份额。

2. 大众最新平面广告为什么成功？

大众汽车最新平面广告的成功与他们的创新策略密不可分。大众汽车不仅仅是重新塑造了自己的品牌形象，更是采用了创新的广告策略、多元化的广告形式和数字化技术的应用。这些创新和改变，使大众汽车的广告更加贴近消费者，从而成功地吸引了更多的消费者，并在市场上赢得了更大的份额。

大众最新平面广告，惊艳视觉享受！特色

1、【自动清扫设置】猫咪上完厕所多久清扫？你来决定！

2、搭配众多游戏福利；

3、【种族与天赋】

4、趣味游戏装扮体验，根据不同等级要求在游戏中进行挑战。

5、自定义新单词。用户可以将阅读中遇到的生词添加到生词本中，借助遗忘曲线巩固单词。

大众最新平面广告，惊艳视觉享受！亮点

1、简单版的奇迹暖暖，没有复杂的剧情，专注于衣着风格的潮流变化。

2、商家可以快速便捷的在线管理店铺，部分数据分析会有所提升；

3、背景智能处理，多底色任意更换

4、不义联盟手游

5、整个视频能给你带来一些趣味性，剪辑出来的视频看起来也比较高级。

【zidongqingsaoshezhi】maomishangwancesuoduojiuqingsao？nilaijueding！dapeizhongduoyouxifuli；【zhongzuyutianfu】quweiyouxizhuangbantiyan，genjubutongdengjiyaoqiuzaiyouxizhongjinxingtiaozhan。zidingyixindanci。yonghukeyijiangyueduzhongyudaodeshengcitianjiadaoshengcibenzhong，jiezhuyiwangquxiangonggudanci。GPT-4 滿(man)分(fen)通(tong)過(guo) MIT本(ben)科(ke)數(shu)學(xue)？恐(kong)怕(pa)是(shi)假(jia)的(de)，数據(ju)集(ji)本身(shen)有(you)問(wen)題(ti)

原(yuan)文(wen)標(biao)题：《爆(bao)火(huo)的「GPT-4 MIT本科数学满分」論(lun)文作(zuo)弊(bi)，数据集本身有问题》

這(zhe)兩(liang)天(tian)，壹(yi)篇(pian)關(guan)於(yu) GPT-4 满分通过麻(ma)省(sheng)理(li)工(gong) MIT EECS 和(he)数学本科考(kao)試(shi)的论文在(zai)推(tui)特(te)上(shang)瘋(feng)傳(chuan)。

论文地(di)址(zhi)：https://arxiv.org/pdf/2306.08997.pdf?

簡(jian)單(dan)概(gai)括(kuo)，一個(ge)來(lai)自(zi) MIT 的研(yan)究(jiu)團(tuan)隊(dui)從(cong)自己(ji)学校(xiao)的数学、電(dian)氣(qi)工程(cheng)和計(ji)算(suan)機(ji)科学 (EECS) 專(zhuan)業(ye)的課(ke)程问题、期(qi)中(zhong)考试和期末(mo)考试中，整(zheng)理出(chu)了(le)一个包(bao)含(han) 4550 个问题和解(jie)決(jue)方(fang)案(an)的綜(zong)合(he)数据集。

然(ran)後(hou)，研究团队讓(rang)各(ge)種(zhong)大(da)語(yu)言(yan)模(mo)型(xing)去(qu)完(wan)成(cheng)这个数据集的题目(mu)，結(jie)果(guo)太(tai)嚇(xia)人(ren)：GPT-3.5 能(neng)做(zuo)對(dui) 1/3，GPT-4 幾(ji)乎(hu)满分通过。

论文作者(zhe)表(biao)示(shi)，提(ti)升(sheng)模型表現(xian)主(zhu)要(yao)靠(kao)「四(si)件(jian)套(tao)」：Few-shot learning、CoT、Self-critique、Expert。

就(jiu)像(xiang)上表中所(suo)示，加(jia)持(chi) GPT-4 的手(shou)法(fa)越(yue)多(duo)，模型的答(da)题正(zheng)確(que)率(lv)就越高(gao)。原始(shi)的 GPT-4 本来就能拿(na)到(dao) 90% 的正确率得(de)分，一番(fan)運(yun)作之(zhi)后，甚(shen)至(zhi)直(zhi)接(jie)拿到满分。

但(dan)大部(bu)分討(tao)论得很(hen)激(ji)烈(lie)的網(wang)友(you)可(ke)能沒(mei)註(zhu)意(yi)到，这个分数本身就是用(yong) GPT-4 打(da)的……

三(san)位(wei)同(tong)樣(yang)来自 MIT 的学生(sheng)第(di)一時(shi)間(jian)發(fa)现了这篇论文，作為(wei)險(xian)些(xie)被(bei) GPT-4 趕(gan)超(chao)的群(qun)體(ti)，他(ta)們(men)想(xiang)立(li)即(ji)領(ling)會(hui)一下(xia)爆款(kuan)论文的方法论。

研究了一小(xiao)时后，他们对該(gai)论文的方法產(chan)生了懷(huai)疑(yi)。

两小时后，他们意識(shi)到：数据集本身有问题。

盡(jin)管(guan)原论文的作者宣(xuan)稱(cheng)已(yi)手動(dong)審(shen)查(zha)了发布(bu)的数据集質(zhi)量(liang)，但三人发现，有明(ming)顯(xian)的跡(ji)象(xiang)表明，測(ce)试数据集的很大一部分被汙(wu)染(ran)了。

也(ye)就是說(shuo)，模型就像一个学生在考试前(qian)被告(gao)知(zhi)了答案，这是赤(chi)裸(luo)裸的「作弊」。

产生质疑后，他们立即著(zhe)手在数据集上完成了零(ling)样本 GPT-4 的运行(xing)，並(bing)对数据的前 30% 進(jin)行了手动評(ping)分，结果與(yu)原论文相(xiang)差(cha)甚遠(yuan)，應(ying)该说是一个天上、一个地下。

「作为麻省理工学院(yuan)的本科生，至少(shao)根(gen)据我(wo)们的經(jing)驗(yan)，这个测试集并不(bu)能準(zhun)确地代(dai)表在麻省理工学院獲(huo)得 EECS 学位所需(xu)的理解廣(guang)度(du)和深(shen)度。」三人在博(bo)客(ke)中这麽(me)寫(xie)道(dao)。

最(zui)新(xin)进展(zhan)：零样本 GPT-4 的准确率能達(da)到 62.5% 了，但還(hai)是和论文裏(li)宣称的 90% 差很多。

三人还质疑了「过度宣传」的風(feng)潮(chao)：「这些论文通常(chang)在任(ren)何(he)合法的同行评审之前就被上传到 Arxiv，并在 Twitter 上广泛(fan)分享(xiang)。在这种情(qing)況(kuang)下，可能会传播(bo)不良(liang)信(xin)息(xi)，并为未(wei)来的工作樹(shu)立一个糟(zao)糕(gao)的先(xian)例(li)。」

「深度学習(xi)」鬥(dou)士(shi) Gary Marcus 也不出意料(liao)地聲(sheng)援(yuan)了这波(bo)质疑：

同时，三人也在博客中指(zhi)出一點(dian)：《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》论文上列(lie)出的几个作者都(dou)是本科生研究人員(yuan)，让这些人对工作中出现的任何失(shi)誤(wu)負(fu)責(ze)是不合適(shi)的。相反(fan)，责任应该在指導(dao)作者身上 —— 他们才(cai)是被期望(wang)确保(bao)工作符(fu)合其(qi)领域(yu)內(nei)公(gong)共(gong)学術(shu)标准的人。

接下来让我们看(kan)下，这篇「爆火」论文都有哪(na)些问题。

数据集到底(di)有什(shen)么问题？

首(shou)先，从原论文中得知，研究者收(shou)集的数据集包含获得 MIT 学位考试所需的 30 門(men)数学和 EECS 课程的 4550 个问题和相应的解决方案，涵(han)蓋(gai)核(he)心(xin)课程和選(xuan)修(xiu)课程。

论文中写道：「在没有圖(tu)像和有解决方案的问题中隨(sui)机选擇(ze)了 288 个问题的测试集。」

这个数据集（不包括用于微(wei)調(tiao)開(kai)源(yuan) LLM 的訓(xun)練(lian)集）随着论文的公开也被发布到 GitHub 上，同时发布的还有用于生成報(bao)告的测试性(xing)能的代碼(ma)。然而(er)，作者 Drori 教(jiao)授(shou)在最近(jin)的一次(ci)提交(jiao)中已经將(jiang)其刪(shan)除(chu)。

经过檢(jian)查、对比(bi)，三人确信这个被删掉(diao)的文件代表了论文中分析(xi)的测试集，因(yin)为评估(gu)代码中的所有数据的文件路(lu)徑(jing)都指向(xiang)它(ta)，没有提供(gong)任何修改(gai)其内容(rong)的代码，而且(qie)它在最初(chu)发布的 GitHub 倉(cang)庫(ku)中是可用的。此(ci)外(wai)，该文件满足(zu)了论文中規(gui)定(ding)的所有模式(shi)要求(qiu)（行数等(deng)）。这些證(zheng)据似(si)乎非(fei)常有力(li)地支(zhi)持了下面(mian)的所有主張(zhang)，

「但我们要承(cheng)認(ren)，这个文件有可能被換(huan)成了一个用于测试的不同文件。如(ru)果是这样的話(hua)，我们认为证明的责任在于作者公开发布这个数据和用它做的所有分析。」

那(na)么，被掩(yan)盖的问题究竟(jing)是什么呢(ne)？三人給(gei)出了自己的分析。

無(wu)法解决的问题（約(yue)占(zhan)测试集的 4%）

鑒(jian)于原论文表示，任何形(xing)式的 GPT-4 都能在测试集上产生一个完美(mei)的分数，三人开始检查个別(bie)数据点。他们很快(kuai)就发现，根本不可能有满分，因为数据集中至少有 10 个问题是无法用所提供的信息解决的，另(ling)外几个问题在这种情况下根本就不是有效(xiao)的问题。

像这种「有问题的问题」，至少占据了测试集的 4%。

在一个擴(kuo)展的 excel 文檔(dang)里，三人对已经发现有问题的数据集例子(zi)进行了注釋(shi)。「紅(hong)色(se)」代表用提供的信息无法解决的问题，「黃(huang)色」代表一部分不太合理的问题。

頁(ye)面地址：https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重(zhong)復(fu)的问题（约占测试集的 5%)

使(shi)用文本相似性检测，三人发现有 14 个问题（7 对）在 288 个问题的测试集中是重复的，在这些情况下，问题串(chuan)之间的唯(wei)一區(qu)别是極(ji)小的字(zi)符級(ji)噪(zao)音(yin)，甚至完全(quan)相同。

鉴于这些无法解决的问题，GPT-4 能夠(gou)通过任何方式获得 100% 的准确率，也是難(nan)以(yi)置(zhi)信。要么是在某(mou)个階(jie)段(duan)出现了答案泄(xie)漏(lou)到 prompt 中，要么是问题没有被正确打分。

这些初步(bu)的发现促(cu)使他们从少样本示例开始进一步调查（如果模型在零样本正确率方面失敗(bai)的话），最終(zhong)发现，既(ji)有解题信息的泄露(lu)，也有用于对模型輸(shu)出进行分级的方法问题。具(ju)体情况如下：

少样本示例中的信息泄露

值(zhi)得注意的是，原论文中还提到了「少样本示例」这个事(shi)。

简而言之，论文对 OpenAI 嵌(qian)入(ru)的数据集内的類(lei)似问题进行余(yu)弦(xian)相似度搜(sou)索(suo)，并将这些问题和解决方案作为額(e)外的上下文納(na)入模型的 prompt，幫(bang)助(zhu)模型解决问题。

这个方法本身是没问题的，只(zhi)要这些示例与有关问题有足够的差異(yi)，且避(bi)免(mian)暴(bao)露不公平(ping)的信息。

只是随机掃(sao)描(miao)已发布的测试数据集时，三人注意到一些奇(qi)怪(guai)的事情：許(xu)多提供给模型的「少样本示例」与问题本身几乎一字不差。

为了进一步了解这一点，他们写了一个简单的腳(jiao)本，查看了所提供的几个示例的问题陳(chen)述(shu)和所列出的问题之间的重疊(die)情况，并繪(hui)出了直方图：

许多提供的少样本与问题本身几乎相同，这意味(wei)着模型得到的是问题的答案或(huo)与问题非常相似的问题。通常情况下，这来自于大量的共享背(bei)景(jing)的多環(huan)節(jie)问题的重复。

他们认为，为了正确评估 GPT 的解题能力，多环节问题的其他部分应该被完全排(pai)除在某一问题的少样本示例之外。事實(shi)上，他们发现这些多环节问题的解决方案，往(wang)往直接提到或给出了模型被要求解决的另一部分问题的答案。

不僅(jin)如此，在对这些数据的挖(wa)掘(jue)中，他们还发现了整个问题被重复的样本。比如：

在这两种情况下，答案是完全相同的。很难说不算信息泄漏了。

GPT-4 自动打分，有问题

此外，三人还在原论文开源的打分机制(zhi)中发现了问题：

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0): df = pd.read_csv(input_path) df = df.iloc[most_recent_q:] for index, row in df.iterrows: print('Completing question', index) question_output = row.values.tolist course_name = row['Course Name'] question = row['Question'] solution = row['Solution'] fs_qs = [[row['Few shot question 1'], row['Few shot solution 1']], [row['Few shot question 2'], row['Few shot solution 2']], [row['Few shot question 3'], row['Few shot solution 3']]] experts = get_experts(course_name, question, num_experts).split(', ') prompts = [lambda expert: zero_shot_response(question, expert), lambda expert: few_shot_response(expert, question, fs_qs), lambda expert: few_shot_response(expert, question, fs_qs, True) ] critiques = [["Review your previous answer and find problems with your answer.","Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]] for expert in experts: print("Using expert", expert) question_output.append(expert) crit = True for prompt in prompts: prompt_response = prompt(expert) # calls fresh ChatCompletion.create prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution question_output+=[prompt_response, prompt_grade] if correct(prompt_grade): crit = False break if crit: for critique in critiques: crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # calls fresh ChatCompletion.create crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 auto-grading comparing answer to solution question_output+=[crit_response,crit_grade] if correct(crit_grade): break repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

在代码中，能看出流(liu)程上處(chu)理分级存(cun)在嚴(yan)重的问题：论文是用 GPT-4 去评估检查的，包括 a）原始问题，b）解决方案，c）GPT 自己的答案，作为分级 prompt 中的參(can)数。

在更(geng)多的技(ji)术领域，GPT 更有可能出现隱(yin)性误解，这种自动评分更有可能出现「自我欺(qi)騙(pian)」的结果。

此外，雖(sui)然 prompt 级聯(lian)是最近许多 GPT 论文中常見(jian)的技术，但这里有大量数据泄漏的可能性。每(mei)一级不仅提供基(ji)于 ground truth 的二(er)元(yuan)信息，而且还在繼(ji)續(xu) prompt，直到达到正确答案。

尽管这些創(chuang)建(jian)的 prompt 并没有看到实際(ji)的答案，但重新 prompt 直到达到正确答案的形式已经足够了，尤(you)其是在占测试集 16% 的多选题中，无限(xian)次的嘗(chang)试（几乎）保证了正确答案一定会出现。

这就好(hao)比有人拿着答题紙(zhi)，告訴(su)正在考试的学生答得对不对，一直提示到学生得到正确答案。

總(zong)结

在博客的最后，三位这样写道：

这篇论文道出了最近人工智(zhi)能领域研究的一个更大趨(qu)勢(shi)。随着该领域的进展越来越快，新发现的时间节奏(zou)似乎在縮(suo)短(duan)，这往往伴(ban)随着捷(jie)径。一个特别令(ling)人擔(dan)憂(you)的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。

虽然是一个有用的工具，但它的结论絕(jue)不应该被誇(kua)大，也不应该被當(dang)作 ground truth。最近的工作表明，如果没有准确的 ground truth 信息，GPT-4 评估器(qi)就不能可靠地用于验证。至少，应该选择一个随机的数据集子集，将 GPT-4 的性能与人类的评估进行比較(jiao)。语言模型还不能被当作产生 ground truth 的神(shen)諭(yu)。

此外，在使用数据之前，无论是用于训练、推理、基准测试还是其他方面，重新评估每一个数据点并进行基本的检查是极其重要的。鉴于有关数据集的规模较小，简单的人工验证很容易(yi)在工作範(fan)圍(wei)内完成。

我们的批(pi)评主要是針(zhen)对这項(xiang)研究的方法和严謹(jin)性，而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见，只是认为本文未能以科学严谨的方式证明这一点。

参考鏈(lian)接：https://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT-b27e6796ab5a48368127a98216c76864#c49f4b29e01745de9bf1ffdf2170b067?返(fan)回(hui)搜狐(hu)，查看更多

责任編(bian)輯(ji)：