大模型调研
<h1 id="背景">背景</h1> <p>ChatGPT 2022.11 月问世之后引起的轰动一直在上升,但类似的做法和能力,在bert 2018年出现的时候基本就有了,一般认为 ChatGPT 的出现,是大模型大到一定程度后,能容纳的知识更加丰富,能力产生了质变,能应用几乎所有的对话类任务。</p> <p>ChatGPT的训练成本过高,传言预训练一次需要200w美金,这应...
<h1 id="背景">背景</h1> <p>ChatGPT 2022.11 月问世之后引起的轰动一直在上升,但类似的做法和能力,在bert 2018年出现的时候基本就有了,一般认为 ChatGPT 的出现,是大模型大到一定程度后,能容纳的知识更加丰富,能力产生了质变,能应用几乎所有的对话类任务。</p> <p>ChatGPT的训练成本过高,传言预训练一次需要200w美金,这应...
<p>从多个方面来讲,我一直觉得强化学习是解决自动驾驶问题的一个非常好的思路,于是就动手做了一个小demo,总耗时一个月左右,现在遇到了瓶颈,来记录一下</p> <h3 id="原由">原由</h3> <p><a href="http://informal.top/2022/11/16/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%AE%80%E...
<h1 id="day1-扬州广陵路大运河">day1 扬州(广陵路、大运河)</h1> <p>了解一个城市,找旅游攻略的时候,感觉播客要比网上的内容质量好很多,因为没那么多功利的内容,或许可以考虑把播客转成文字,发表出来,做各个城市的专栏</p> <p>去酒店路上,遇上一个外地的司机,我就提了扬州生活节奏慢的话题,司机师傅觉得道理很明显,因为大部分本地人都有钱,自然生活节奏慢...
<h1 id="41">4.1</h1> <p>There were two ways of making friends, when we were children, we make friend with person that live near with me, when we grow up, we make friend base on interest, the R...
<h1 id="326-ride-a-bike">3.26 Ride a bike</h1> <p>I like ride bike, I ride bike twice in this weekeed for about senventy kilometers, there are many reason that i like it, I enjoy the feeling o...
<p>想开了很多,心情要比两个月前好多了。要把生活的重心放在具体要做的事情上,无论是工作,还是一个人玩、跟朋友玩,跟对象一起玩。</p> <p>现在非常喜欢尝试新的事情,比如播客脱口秀、滑板、搓澡等等,体验是活力的体现,感觉又年轻了似的。</p> <p>成长就是接受自己是个普通人的事实,逐渐慢慢接受了,但也在教导自己,即使作为普通人,也不影响自己追求喜欢的技术,自己热爱的事情。...
<p>又到了一年一度的总结时间</p> <h2 id="健康">健康</h2> <p>回头看看,2021年竟然把健康列在了第一位,说明那时候真没啥烦恼,只有没烦恼才会这么看重健康。</p> <p>原计划是要跑步和游泳,跑步没有坚持下来,不太喜欢室内跑,6月室外跑的多,在记录的420分钟,相当于每周一个半小时,后来因为有疫情,慢慢就少了,9月只有100分钟,10月就停下了。后来...
<p>已经好久好久没刷过剧了,前两天头疼的厉害,就开了一个新剧《来自星星的你》,但当天一集都没看完,主要是从昨天开始看到,看到今天,把它刷完了。</p> <p>剧虽然有点狗血,但刷剧确实很快乐,快乐来自于对美好的追求,谁又不喜欢美好的事物呢。</p> <p>想想自己喜欢的美剧,大多有一个特点,剧里的角色性格非常鲜明,极其鲜明,但现实中大多人的性格都是偏”中性”的,这里实在找不到...
<p>没想到这么快就中招了。</p> <h2 id="126-核酸">12.6 核酸</h2> <p>12.6日时已经9天没有做核酸了,北京宣布放开,就去做了一次核酸。</p> <h2 id="127-出现症状">12.7 出现症状</h2> <p>12.7日去公司上班,发现核酸没出结果,中午看了下还没出,正跟对象打电话聊这事儿呢,就收到十混一阳的电话了,说让回家等上门核酸,于...
<h2 id="概念">概念</h2> <p>强化学习是机器学习的一个分支,指模型输出结果后从环境中获取反馈,从而优化自身的一种学习方法。</p> <p>人类的学习过程就是学习知识,然后根据环境的反馈不断提升自己。最典型的比如开车,可以通过现实的反馈得知当前操作是否合理。再比如数学推理,人类本身就可以证明某个数学结果的真伪,当然这个证明过程或许比较长,但至少是可证明的。</p>...