王挺：人生路上的拼搏与成长

近年来，随着经济的发展和社会变革的加速，人们对个人成长和自我超越的需求日益增长。在人生历程中，如何拼搏与成长成为了摆在每个人面前的问题。在众多优秀人士中，王挺以其坚韧不拔的精神和奋斗历程，成为了那些追求成长和超越的人们值得借鉴的对象。本文将从四个方面，介绍王挺的人生路上的拼搏和成长。

一、坚持追求教育的价值

王挺从小就深知教育对于人生的意义和价值，因此他在求学阶段向来很用功。后来，他在清华大学获得计算机科学学士学位，并继续在哈佛大学深造。在美国学习期间，他深刻体会到了国外先进教育方法和理念的优势，这也让他坚信，教育是塑造个人命运的重要因素之一。回国后，他成立了自己的教育公司，致力于用创新的方式改变教育。

二、在创业中体现拼搏精神

创业，是现代社会中最具挑战性和风险性的活动之一。在王挺的创业过程中，他始终保持着拼搏的精神。他在公司成立初期，坚持做课程开发，并先后推出了几款备受欢迎的课程，为公司的发展奠定了基础。而在公司面临困境的时候，他不仅没有放弃，反而不断尝试创新和突破。最终，他的公司获得了巨大的成功，成为了国内知名的在线教育平台之一。

三、积极投身公益事业

在王挺的眼里，创业的意义不仅在于市场地位和经济利益，更在于对社会的回馈和承担。他积极投身于各种公益活动，并倡导员工参与社区建设和环保事业。而其中最为突出的，就是他成立的公益组织——追梦计划。这个组织致力于为贫困学生提供学习和成长的机会，帮助他们走出困境、实现人生价值，体现了王挺弘扬社会正能量、勇担社会责任的人生追求。

四、追求全面成长与超越

王挺深知，要想在人生的道路上不断超越自我，必须始终保持全面的成长。因此，他不仅在创业和教育事业上不断拓展自己的能力和视野，还积极参与各种文化和艺术活动，提高自己的人文素养和创造力。他曾受邀参加TEDx演讲，并分享了自己对教育、创新和未来的看法。这些经历使他更加全面和深刻地理解人生的意义，也让他更加坚定了自己的人生追求和价值观。

总结

王挺的人生经历和创业历程，充分说明了在人生路上如何拼搏与成长，是如何面对挑战和困难，如何不断追求自我完善和超越。他的故事告诉我们，无论身处何种境遇，我们都应该坚持自己的人生追求，积极面对挑战和压力，并不断提升自己的能力和素养。只有这样，我们才能在人生的道路上真正实现自己的价值和意义。问答话题：1、王挺的创业历程中，最大的挑战是什么？王挺创业的过程充满了各种挑战和风险，但是最大的挑战应该是面对市场的不确定性和竞争的激烈。首先，当时的在线教育市场处于初期阶段，用户对于在线教育的接受度和认可度并不高，因此需要耐心和毅力去开拓市场。其次，随着市场的发展，越来越多的竞争者涌入，需要不断创新和提升自己的能力，才能在市场竞争中立于不败之地。2、王挺如何坚持自己的人生追求，实现自我超越？王挺坚信教育的价值，因此在求学和创业的过程中，不断提升自己的能力和素质是实现自我超越的关键。此外，他还积极参与各种公益事业和文化活动，提高自己的社会责任感和人文素养。在追求自我超越的过程中，他始终保持着奋斗和拼搏的精神，不断磨砺自己的意志和毅力，成为了一个全面发展的人才。3、王挺的公益组织追梦计划有哪些成功案例？追梦计划是王挺于201年成立的公益组织，主要致力于为贫困学生提供学习和成长的机会。该组织在过去几年中，已经取得了一些显著的成功案例。比如，该组织与多家企业联合开展的明天星球项目，为贫困学生建立了针对性的学习计划，并提供奖学金和辅导服务。另外，该组织还主办了追梦公益之夜等多个公益活动，用实际行动践行了让爱传递，让未来有希望的公益理念。

王挺：人生路上的拼搏与成长特色

1、融合国外先进的育儿早教理念，结合中国传统的育儿方法，寓教于乐

2、利用手机内置传感器计算每天的步数，非常省电；

3、你可以成为牛掰的建筑大师!创建房屋建筑城堡城市；

4、给用户带来最便捷的服务，帮助用户社交拿出最美的照片。

5、激活身份后，您还可以自动获取邀请码，用于邀请其他艺术家的朋友

王挺：人生路上的拼搏与成长亮点

1、相关消息自动“串”联，无须费力翻找聊天记录

2、超全信息实时体验，可以专注于最全信息带来的效率。

3、由钱江晚报与杭州市文化广电旅游局共同打造，及时了解杭州本地吃喝玩乐活动资讯，引领潮杭州生活。

4、上线就送V0。并可每日领取V0福利。00元就满v

5、经典复古的传奇游戏画面，让你回想起当年的激情岁月！

rongheguowaixianjindeyuerzaojiaolinian，jiehezhongguochuantongdeyuerfangfa，yujiaoyuleliyongshoujineizhichuanganqijisuanmeitiandebushu，feichangshengdian；nikeyichengweiniubaidejianzhudashi!chuangjianfangwujianzhuchengbaochengshi；geiyonghudailaizuibianjiedefuwu，bangzhuyonghushejiaonachuzuimeidezhaopian。jihuoshenfenhou，ninhaikeyizidonghuoquyaoqingma，yongyuyaoqingqitayishujiadepengyou不(bu)做(zuo)文(wen)盲(mang)畫(hua)家(jia)！谷(gu)歌(ge)魔(mo)改(gai)「文本(ben)編(bian)碼(ma)器(qi)」：壹(yi)個(ge)小(xiao)操(cao)作(zuo)讓(rang)圖(tu)像(xiang)生(sheng)成(cheng)模(mo)型(xing)學(xue)會(hui)「拼(pin)寫(xie)」

新(xin)智(zhi)元(yuan)報(bao)道(dao)

编輯(ji)：LRS

【新智元導(dao)讀(du)】图像生成模型終(zhong)於(yu)学会了(le)拼写單(dan)詞(ci)，秘(mi)訣(jue)竟(jing)是(shi)字(zi)符(fu)特(te)征(zheng)？

過(guo)去(qu)的(de)一年(nian)裏(li)，隨(sui)著(zhe)DALL-E 2，Stable Diffusion等(deng)图像生成模型的發(fa)布(bu)，text-to-image模型生成的图像在(zai)分(fen)辨(bian)率(lv)、質(zhi)量(liang)、文本忠(zhong)實(shi)度(du)等方(fang)面(mian)都(dou)得(de)到(dao)了飛(fei)躍(yue)性(xing)提(ti)升(sheng)，極(ji)大(da)促(cu)進(jin)了下(xia)遊(you)應(ying)用(yong)場(chang)景(jing)的開(kai)发，人(ren)人都成了AI画家。

但(dan)相(xiang)關(guan)研(yan)究(jiu)表(biao)明(ming)，目(mu)前(qian)的生成模型技(ji)術(shu)仍(reng)然(ran)存(cun)在一个重(zhong)大缺(que)陷(xian)：無(wu)法(fa)在图像中(zhong)呈(cheng)現(xian)出(chu)可(ke)靠(kao)的視(shi)覺(jiao)文本。

有(you)研究結(jie)果(guo)表明，DALL-E 2在图片(pian)中生成連(lian)貫(guan)文本字符上(shang)非(fei)常(chang)不穩(wen)定(ding)，而(er)最(zui)新发布的Stable Diffusion模型則(ze)是直(zhi)接(jie)將(jiang)「无法呈现可读的文本」列(lie)為(wei)已(yi)知(zhi)的限(xian)制(zhi)。

字符拼写錯(cuo)誤(wu)：(1) California: All Dreams Welcome, (2) Canada: For Glowing Hearts, (3) Colorado: It’s Our Nature, (4) St. Louis: All Within Reach.

最近(jin)Google Research发布了一篇(pian)新論(lun)文，試(shi)图了解(jie)並(bing)提高(gao)图像生成模型渲(xuan)染(ran)高质量视觉文本的能(neng)力(li)。

论文鏈(lian)接：https://arxiv.org/abs/2212.10562

研究人員(yuan)認(ren)为當(dang)下的text-to-image生成模型模型存在文本渲染缺陷的主(zhu)要(yao)原(yuan)因(yin)是缺乏(fa)字符級(ji)的輸(shu)入(ru)特征。

为了量化(hua)該(gai)输入特征在模型生成中的影(ying)響(xiang)，文章(zhang)中設(she)計(ji)了一系(xi)列控(kong)制实驗(yan)對(dui)是否(fou)包(bao)含(han)文本输入特征的文本编码器（character-aware和(he)character-blind）进行(xing)对比(bi)。

研究人员发现，在純(chun)文本領(ling)域(yu)，character-aware模型在一个新的拼写任(ren)務(wu)（WikiSpell）上獲(huo)得了很(hen)大的性能收(shou)益(yi)。

将该經(jing)验遷(qian)移(yi)到视觉领域後(hou)，研究人员訓(xun)練(lian)了一套(tao)图像生成模型。实验结果表明character-aware模型在一系列新的文本渲染任务（DrawText基(ji)準(zhun)）中比character-blind更(geng)勝(sheng)一籌(chou)。

并且(qie)character-aware模型在视觉拼写方面達(da)到了更高的技术水(shui)平(ping)，盡(jin)管(guan)训练的樣(yang)例(li)數(shu)量少(shao)得多(duo)，其(qi)在不常見(jian)的单词上的准確(que)率仍然比競(jing)爭(zheng)模型高出30多个百(bai)分點(dian)。

Character-Aware模型

語(yu)言(yan)模型可分为直接訪(fang)問(wen)構(gou)成其文本输入字符的character-aware模型和无法访问的character-blind模型。

許(xu)多早(zao)期(qi)的神(shen)经语言模型直接在字符上进行操作，而不使(shi)用多字符的token作为標(biao)記(ji)。

后來(lai)的模型逐(zhu)漸(jian)轉(zhuan)向(xiang)基于词匯(hui)表的tokenization，其中一些(xie)模型如(ru)ELMo仍然保(bao)留(liu)了character-aware，但其他(ta)模型如BERT则放(fang)棄(qi)了字符特征以(yi)支(zhi)持(chi)更有效(xiao)的預(yu)训练。

目前，大多数廣(guang)泛(fan)使用的语言模型是character-blind的，依(yi)靠数據(ju)驅(qu)動(dong)的子(zi)词（subword）分割(ge)算(suan)法，如字節(jie)对编码（BPE）来生成子词pieces作为词汇表。

雖(sui)然這(zhe)些方法对于不常见的序(xu)列可以退(tui)回(hui)到字符级表示(shi)，但它(ta)們(men)在设计上仍然会将常见的字符序列壓(ya)縮(suo)成不可分割的单元。

这篇论文的主要目的是试图了解并提高图像生成模型渲染高质量视觉文本的能力。

为此(ci)，研究人员首(shou)先(xian)孤(gu)立(li)地(di)研究了当下文本编码器的拼写能力，從(cong)实验结果可以发现，尽管character-blind文本编码器很受(shou)歡(huan)迎(ying)，但它们沒(mei)有收到关于其输入的字符级构成的直接信(xin)號(hao)，导致(zhi)其拼写能力有限。

研究人员還(hai)測(ce)试了不同(tong)規(gui)模、架(jia)构、输入表示、语言和調(tiao)整(zheng)方法的文本编码器的拼写能力。

这篇论文首次(ci)记錄(lu)了character-blind模型通(tong)过網(wang)絡(luo)预训练誘(you)导出強(qiang)大的拼写知識(shi)（准确率>99%）的神奇(qi)能力，但实验结果表明这項(xiang)能力在英(ying)语之(zhi)外(wai)的语言中并没有得到很好(hao)的泛化，而且只(zhi)有在超(chao)过100B參(can)数的规模下才(cai)能实现，所(suo)以对于大多数应用场景是不可行的。

另(ling)一方面，character-aware的文本编码器能夠(gou)在更小的尺(chi)度上实现强大的拼写能力。

在将这些发现应用于图像生成场景時(shi)，研究人员训练了一系列character-aware的文本到图像的模型，并證(zheng)明它们在现有的和新的文本渲染的評(ping)估(gu)中明顯(xian)優(you)于字符盲目的模型。

但对于纯字符级模型来說(shuo)，虽然文本渲染的性能提升了，但对于不涉(she)及(ji)视觉文本的prompt，图像-文本对齊(qi)度则会下降(jiang)。

为了緩(huan)解这一问題(ti)，研究人员建(jian)議(yi)将字符级和token级的输入表征结合(he)起(qi)来，从而可以实现最佳(jia)的性能。

WikiSpell基准

由(you)于文本到图像的生成模型依賴(lai)于文本编码器来產(chan)生用于解码的表征，研究人员首先从Wiktionary中采(cai)样一些单词創(chuang)建了WikiSpell基准，然后基于此数据集(ji)在一个纯文本的拼写评估任务来探(tan)索(suo)文本编码器的能力。

对于WikiSpell中的每(mei)个样例，模型的输入是一个单词，预期的输出是它的具(ju)體(ti)拼写（通过在每个Unicode字符之間(jian)插(cha)入空(kong)格(ge)来生成）。

由于该文章僅(jin)对研究一个词的頻(pin)率和模型的拼写能力之间的关系感(gan)興(xing)趣(qu)，所以研究人员根(gen)据单词在mC4语料(liao)庫(ku)中出现的频率，将Wiktionary中的词分成五(wu)个互(hu)不重疊(die)的桶(tong)：最频繁(fan)的前1%的词，最频繁的1-10%的词，10-20%的词，20-30%的词，以及最低(di)的50%的词（包括(kuo)在语料库中从未(wei)出现过的词）。

然后从每个桶中均(jun)勻(yun)地抽(chou)取(qu)1000个词来创建一个测试集（以及一个類(lei)似(si)的开发集）。

最后通过结合兩(liang)部(bu)分建立了一个由10,000个词組(zu)成的训练集：5,000个从最底(di)層(ceng)的50%桶（最不常见的词）中統(tong)一取样，另外5,000个根据它们在mC4中的频率按(an)比例取样（从而使这一半(ban)的训练集偏(pian)向频繁的词）。

研究人员将任何(he)被(bei)選(xuan)入开发集或(huo)测试集的词排(pai)除(chu)在训练集之外，因此评估结果總(zong)是針(zhen)对被排除的词。

除了英语外，研究人员还对其他六(liu)種(zhong)语言（阿(e)拉(la)伯(bo)语、漢(han)语、芬(fen)蘭(lan)语、韓(han)语、俄(e)语、泰(tai)语）进行评估，选擇(ze)这些语言是为了涵(han)蓋(gai)影响模型学習(xi)拼写能力的各(ge)种特性，对每一种语言的评估都重復(fu)上述(shu)数据集构建过程(cheng)。

文本生成实验

研究人员使用WikiSpell基准来评估多种预训练的纯文本模型在不同规模上的表现，包括T5（一个在英语数据上预训练的character-blind编码解码器模型）；mT5（與(yu)T5类似，但在超过100种语言上预训练）；ByT5（mT5的character-aware版(ban)本，直接在UTF-8字节序列上操作）；以及PaLM（一个规模更大的解码模型，主要是在英语上预训练的）。

在纯英语和多语言的实验结果中，可以发现character-blind模型T5和mT5在包含Top-1%最频繁词汇的桶上的表现要差(cha)很多。

这个结果似乎(hu)是反(fan)直觉的，因为模型通常在数据中频繁出现的例子上表现最好，但是由于subword词汇的训练方式(shi)，频繁出现的词通常被表示为一个单一的原子标记（或少量的标记），事(shi)实上也(ye)是如此：在英语前1%的桶中，87%的词被T5的词汇表示为一个子词标记。

因此，較(jiao)低的拼写准确性分数表明，T5的编码器没有保留足(zu)够的关于其词汇中subword的拼写信息(xi)。

其次，对于character-blind模型，规模是影响拼写能力的一个重要因素(su)。T5和mT5都随着规模的增(zeng)加(jia)而逐渐變(bian)好，但即(ji)使在XXL规模下，这些模型也没有表现出特別(bie)强的拼写能力。

只有当character-blind模型达到PaLM的规模时，才开始(shi)看(kan)到近乎完(wan)美(mei)的拼写能力：540B参数的PaLM模型在英语的所有频率桶中都达到了>99%的准确率，尽管它在提示中只看到20个例子（而T5显示的是1000个微(wei)调例子）。

然而，PaLM在其他语言上的表现较差，可能是由于这些语言的预训练数据少得多。

对ByT5的实验表明，character-aware模型表现出更强大的拼写能力。ByT5在Base和Large尺寸(cun)下的表现仅略(lve)微落(luo)后于XL和XXL（尽管仍然至(zhi)少在90%的範(fan)圍(wei)內(nei)），而且一个词的频率似乎对ByT5的拼写能力没有太(tai)大影响。

ByT5的拼写性能遠(yuan)远超过了(m)T5的结果，甚(shen)至与参数多于100倍(bei)的PaLM的英语表现相当，并且超过了PaLM在其他语言上的表现。

从而可知ByT5编码器保留了相当多的字符级信息，而且这些信息可以根据解码任务的需(xu)要从这些凍(dong)结的参数中檢(jian)索出来。

DrawText基准

从2014年发布的COCO数据集到2022年的DrawBench基准，从FID, CLIP得分到人类偏好等指(zhi)标，如何评估text-to-image模型一直是一个重要的研究課(ke)题。

但目前在文本渲染和拼写评估方面一直缺乏相关工(gong)作。

为此，研究人员提出了一个新的基准DrawText，旨(zhi)在全(quan)面衡(heng)量文本到图像模型的文本渲染质量。

DrawText基准由两部分组成，分别测量模型能力的不同維(wei)度：

1）DrawText Spell，通过大量的英语单词集合的普(pu)通单词渲染进行评估；

研究人员从英语WikiSpell频率桶中各抽取100个单词，并将它们插入一个标准模板(ban)中，总共(gong)构建了500个提示。

2）DrawText Creative，通过视觉效果的文本渲染进行评估。

视觉文本并不局(ju)限于像街(jie)道标誌(zhi)那(na)样的常见场景，文字可以以多种形(xing)式出现，如潦(liao)草(cao)的、繪(hui)画的、雕(diao)刻(ke)的、雕塑(su)的，等等。

如果图像生成模型支持靈(ling)活(huo)而准确的文本渲染，这将使设计師(shi)能够使用这些模型来开发创造(zao)性的字体、标志、布局等等。

为了测试图像生成模型支持这些用例的能力，研究人员与一位(wei)專(zhuan)業(ye)的图形设计师合作，构建了175个不同的提示，要求(qiu)在一系列创造性的風(feng)格和设置(zhi)中渲染文本。

许多提示超出了当前模型的能力，最先进的模型会表现出拼写错误、丟(diu)弃或重复的单词。

图像生成实验

实验结果显示，用于对比的9个图像生成模型中在DrawText Spell基准上的准确率中，character-aware模型（ByT5和Concat）无论模型尺寸大小都优于其他模型，特别是在不常见单词上。

Imagen-AR显示了避(bi)免(mian)cropping的好處(chu)，尽管训练时间長(chang)了6.6倍，其仍然比字character-aware模型表现差。

模型之间的另一个明显的區(qu)别在于它们是否在多个样本中持續(xu)地拼错一个給(gei)定的单词。

在实验结果中可以看出，无论抽取多少个样本，T5模型都有很多单词拼错，研究人员认为这表明文本编码器中缺少字符知识。

相比之下，ByT5模型基本只会出现零(ling)星(xing)的错误。

通过测量模型在所有四(si)个图像样本中持续正(zheng)确（4/4）或持续错误（0/4）的比率可以量化这一觀(guan)察(cha)结果。

可以看到一个鮮(xian)明的对比，特别是在常见的词上（前1%），即ByT5模型从未持续错误，而T5模型在10%或更多的词上持续错误。

参考(kao)資(zi)料：

https://arxiv.org/abs/2212.10562返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：