杰佛里辛顿全神贯注的看了起来,一边看一边在脑海中进行构思和推演。
“通过并行计算多个独立的注意力头,使模型能够从不同子空间捕捉输入序列的多样化特征!这核心理念,真是令人惊叹!”
杰弗里辛顿又开始检查和验算,这个具体的计算流程。
“输入序列通过三个线性变换(( W_Q, W_K, W_V ))生成查询(Query, Q)、键(Key, K)和值(Value, V)矩阵...”
“Q、K、V被分割为( h )个头(如BERT中( h=12 )),每个头独立计算注意力权重:
[ext{Attention}(Q_i, K_i, V_i)=ext{softmax}\left(\frac{Q_i K_i^T}{\sqrt{d_k}}\right) V_i ]...”
“所有头的输出拼接后通过线性层( W_O )融合:
[ext{MultiHead}(Q, K, V)=ext{Concat}(ext{head}_1,...,ext{head}_h) W_O ]...”
看着这个美妙的算法和数学模型,杰佛里辛顿喝了一口咖啡,兴奋的将双手舞动了起来。
这是他学生阶段就养成的习惯,显然这篇论文让他看嗨了,进入忘我境界。
“没想到还能够通过多视角特征提取,不同的头关注输入的不同方面,对语法,语义,上下文分开提取,之后又通过线性层融合,这种并行计算,还真是有些颠覆性的!”
杰佛里辛顿直接拿出了笔记本,给自己的谷歌Brain团队发了一个视频会议邀请。
这个团队的成员可都是世界范围内的顶级程序员,数学,计算机领域的超级天才。
核心成员们,都非常意外,为何杰弗里辛顿会在这么一个大晚上的时间,突然发起一个视频会议。
目前手上的项目,也没有特别的节点,需要这么急迫。
难不成,杰弗里辛顿有了什么天才的创意,要这么着急的召集大家?
在众人惊讶之中,杰弗里辛顿,对着团队成员神秘兮兮的说道:
“今天召集大家开这个会,一时兴起,事情呢,说大也不大,说小也不小。纯粹我个人的分享。”
听着辛顿的话,团队成员一个个都是屏息凝神,这大神这是有什么大发现?
能够被他看重,肯定是行业内足够影响力的成果。
在众人的期待中,辛顿大致说了下:
“这几天作为《Nature Machine Intelligence》的特邀审稿员,我看到了一篇令人惊叹的论文。由于论文还没有正式发表,我也不方便具体的透露。但是,不分享出来,我又有些心痒痒。”
“这篇论文来自东方大国,一个年轻的学者投稿的,这篇论文在AI大模型的相关机制上,进行了一次革命性的改革。我仔细的验证过他的算法和数学模型,我想即便是我这个岁数的时候,也写不出如此天才创意的论文。”
“我在这里给你们做个预告,密切关注下一期的《Nature Machine Intelligence》,你们会看到惊喜的。”
“有了这位东方学者的全新模块,相信未来一段时间内,所有的主流的AI大模型,都将迎来一次性能的巨大提升。”
“假以时日,这位年轻学者,会在AI领域掀起我曾经做到过的风浪!”
辛顿说完之后,吊住了成员们的胃口,他自己的兴致和表达欲望都缓解了,直接退出了视频会议。
辛顿又喝了一口咖啡,开始写下他的审稿意见。
“这位年轻天才的功能模块,将会推动Transformer架构的再次迭代,将会成为下一代基准模型,全方位的运用于搜索引擎,智能客服,医疗影像等场景。“分头学习,全局融合”东方哲学下的惊世之作!”
辛顿下线之后,谷歌Brain团队成员,一个个都是傻眼了。本来还有些困意的年轻人,都睡不着了。
媲美世界AI三巨头之一的辛顿教授达到过学术风暴?
“这最新一期的《Nature Machine Intelligence》什么时候能够出啊!”
“是啊,真的好难受。这东方大国的学者究竟是谁,能够让辛顿都这么推崇和激动。”
...
...
同一天,《ACM Computing Surveys》杂志的编辑穆勒,同样遇到了令人兴奋的两篇论文。
关键还是同一个人写的。
“华国的Yi Qian,这个年轻学者还是初出茅庐吧!”
看着《隐私计算学理论框架:数据隐私保护的全新学科》、《改良式差分隐私技术在隐私计算中的应用》两篇开宗立派的全新框架理念,编辑激动不已。
穆勒在编辑部是属于那种半边缘的人物,没想到这一次,让他从一大堆邮件之中,筛选到了这两篇来自同一天才的论文。
“涉及数学,密码学,计算机学等领域,这个作者还真是一个全才啊。”
穆勒仔细的思考了一番,准备将这两篇论文提交给麻省理工学院的西尔维奥·米卡利教授来审稿。
西尔维奥·米卡利是麻省理工学院教授,米国国家科学院院士,米国国家工程院院士,图灵奖获得者(计算机科学),Gödel奖获得者(理论计算机科学),RSA奖获得者(密码学)!
他的核心贡献,关注数字货币都是耳熟能详,他提出的交互式证明系统,为区块链和隐私保护技术奠定了基础。
他设计的不可能三角(去中心化,安全,可扩展性)的理论,更是令人膜拜。
穆勒这位名不见经传的期刊编辑,拿着两篇打印好的钱益的论文,亲自拜访了米卡利教授。
“米卡利教授,我是《ACM Computing Surveys》的编辑,最近收到了来自东方大国的一位天才学者的两篇论文,关于他开创的隐私计算学的框架理论,及相关的具体应用。想要请您审稿。”
听到穆勒的介绍,米卡利教授没有太大的兴趣。
“一个华国的年轻学者?一门全新开创的学科框架理论?穆勒,你觉得我的时间这么不值钱么?还有你手上的两篇学术垃圾,就算是全世界只剩下了这两篇论文,我也不会看一个字。”
“我最近在做一个摩根大通关于隐私金融交易的项目,给你腾出这十分钟,也是看在你们主编的面子上。但是,现在我打算提前结束我们的谈话。”
米卡利教授对于华国那边的隐私保护方面的学者,完全没有一点好的印象。更别说一个年轻的华国学者,懂什么隐私保护技术?一个区块链的概念和技术,就足够他们消化十年了。
加上最近项目推动不顺利,心情很是烦躁。
对于米卡利教授的轻慢和暴躁,穆勒有些急了,正想要解释之际,想到了钱益论文里面的一些核心概念,正好和米卡利教授摩根大通的隐私项目有些关联,脱口而出:
“数据的可用不可见,本地分布式训练,联邦学习平台聚合大模型。”
原本已经准备谢客的米卡利教授脚步一顿,如遭雷击。
“可用不可见...分布式训练...”
喃喃一句,米卡利教授有些激动的看向了穆勒手中的论文稿子,眼神火了:
“这是你手上的论文理念?给我,快!”