再一次回到了学校,周淮拿出了梁峰交给他的那个U盘,然后插入电脑,开始查看这个他们所谓的内部成果。
老实说,他其实也并不在意他们的内部成果能有多好。
毕竟,就算是再好的成果,也不可能比小芙更厉害。
只要有小芙在,那么像是CRA架构的后续更新升级都完全不是问题。
对他来说,现在的主要问题就是要如何保证他从小芙那里获得的技术是当前科学界能够接受的。至于这个梁峰公司的内部成果,对他来说主要就是看看他们团队是不是真的如梁峰说的那样,质量高。很快,打开了里面的内容,其中包含了差不多十来个文件。
其中有些已经有了一定的成果,有的则是初步的构想。
周淮的表情很平静,他随手点开了几个已经有一定成果的项目。
一个是金融舆情分析系统,利用当时主流的BERT模型,对海量新闻和社交媒体信息进行情感分析,以辅助交易决策。
另一个是自动化交易框架,能够将交易员的策略转化为高效的执行代码。
“嗯,很不错。”周淮在心中评价道。
看得出来,这个团队的技术功底确实相当扎实,工程能力出色,能将学术界的模型,快速、高效地落地到商业场景中。
不愧是管理上百亿资金规模的私募,在这方面的技术上面的确厉害。
但这,也仅此而已了。
在周淮眼中,这些都只是在现有Transformer架构框架下的精巧应用,是“术”的层面,并未触及“道”的根本。
与小芙构建出的CRA架构相比,这些成果确实……不值一提。
他靠在椅子上,心中略微有些失望,但又觉得这在情理之中。
他本就没指望能在这里看到什么惊天动地的东西。
“看来,主要还是看中他们的资金和算力了。”他一边想着,一边准备关掉文件夹。
然而就在这时,他的目光被一个名为【推理引擎路线图】的文件夹吸引住了。
与其他项目不同,这个文件夹里没有太多成型的代码,大部分都是PPT、设计文档和理论草案。他好奇地点了进去,打开了这个文件夹,看见了里面的一些档案资料。
而随着他打开了其中的一些资料,简单看了几眼之后,他就不由得坐直了身体。
这些资料里面,没有去畅想如何做一个包罗万象的通用大模型。
恰恰相反,它提出了一条极其“刁钻”和“务实”的技术路线。
第一,他们放弃了“通用”的幻想,将第一个目标,锁定在了“代码生成”这个最具体、最考验逻辑的领域。
文档中的原话是:【自然语言充满了模糊性和歧义性,而代码是人类创造的最严谨、最无歧义的逻辑语言。我们相信,一个真正能够“理解’代码并生成代码的AI,才算得上是迈出了从“模式匹配’到“逻辑推理’的第一步。我们不打算教AI“聊天’,我们想先教它“思考’。】
然后他们将这种想法也直接命名为【deepthink模型】,或者是【深度思考模型】。而后在后面他们还提供了一些数学模型。
周淮看了一眼,顺便也模拟了一遍,虽然仅仅只是一些基础的想法,但是他也能够看出其中的一些潜力如果让他来亲自操刀,也许能够将这个模型修改的更好一些。
当然,亮点也并不只是这一个。
除了这个深度思考模型之外,他们还提出了一个或许可以解决大模型巨大的算力和推理成本问题。众所周知,GPT这个模型,最重要的就是堆算力。
庞大的算力,使得GPT达到了现在的这种程度。
但是算力的堆叠需要大量的成本,毕竞这需要购买大量的算力卡。
因此,如果能够降低这方面的成本,毫无疑问就能