Meta开发AI“读心术”系统,仿真大脑模型,大脑活动直接转文字 讯飞星火V4发布:多语言实时转文字炸场,这下GPT4o不香了|AI新榜
Meta开发AI“读心术”系统,仿真大脑模型,大脑活动直接转文字 讯飞星火V4发布:多语言实时转文字炸场,这下GPT4o不香了|AI新榜,
Meta开发AI“读心术”系统,仿真大脑模型,大脑活动直接转文字
智东西4月3日消息,据《华尔街日报》报道,Meta正在开发一个系统来读取人脑中的想法,该项目利用AI来帮助科学家们研究大脑中神经元,通过一个仿真人脑模型,就能实现人的大脑活动在无需打字、语音输入的情况下直接转文字。
智东西发现,去年,Meta AI实验室曾公开了一项名为“大脑信号读心术(Brain Signal Reading)”的研究成果。研究人员利用脑电图和脑磁图两种非侵入式技术获取数据,让自主监督学习AI工具wave2vec 2.0在开源录音上进行训练,训练数据集中包含169名志愿者在听到有声读物和单句时的大脑活动录音。
通过近150个小时的录音,算法像懂读心术一样能够推断出人们最有可能听到的词。这项技术证明科学界正努力借助AI来了解人类大脑,Meta的研究目前仍在继续。
每年有近7千万人遭受创伤性脑损伤,导致其今后无法再通过语言、打字甚至是手势交流。研究人员正努力从无创大脑活动中解码语言来改善这部分人的生活。
据悉,大脑解码技术可以通过不同的方法来实现,主要有三类:一是侵入式脑机接口,二是非侵入式脑机接口,三是用于研究神经元活动的大脑解码技术。Meta在研究中主要通过非侵入式脑机接口来实现脑电波读取。在这项研究中,研究人员们使用的是从被试者那里收集来的大脑信号数据,被试者坐在非侵入式脑部扫描仪前听单词和短语,然后扫描仪来捕捉他们的脑电波数据。
扫描仪可以分为两种:一种是为人熟知的嵌入式电极,被称为“EEG(脑电图Electroencephalogram)”;另一种是MEG(脑磁图Magnetoencephalography),两种扫描仪分别测量由神经元活动引起的电场和磁场的波动。在实践中,这两个系统使用数百个传感器,每秒钟可以拍摄大约1000张宏观大脑活动的快照,研究人员再将这些EEG和MEG数据记录输入到一个仿真大脑模型中。
由于个人的大脑解剖结构、各脑区神经功能的位置和时间的差异,以及记录过程中传感器的位置的不同,每个人的脑电图记录也完全不同。在实践中,分析大脑数据通常需要在仿真大脑上重新调整信号,这是一个较复杂的工程管道。在以前的研究中,大脑解码器是在少量的录音中训练,然后预测一组有限的语音特征,如部分语音类别或单词。
在这次研究中,研究人员设计了一个新主体嵌入层,该层经过端到端的训练,可以将所有脑电波记录对齐在一个公共空间当中。为了分析这些脑信号数据,研究人员使用了自我监督学习的AI模型wave2vec 2.0,该模型不用指示就能从巨大的数据池中抓取数据,可从噪音中识别正确的语音,还能解析动物对话的含义。为了从非侵入式大脑信号中解码语音,研究人员训练出了一个可对比学习的模型,把大脑活动与相似的语音对齐,当两者保持大体一致时,就能找出仿真大脑模型输出的对应语音。
Meta AI团队在之前的工作中用wave2vec 2.0证明了该算法可以生成与大脑类似的语音电波。据Meta研究团队称,在训练中系统执行的是零样本分类,只要提供一个大脑活动片段,系统就能从众多音频片段中确定这个人实际听到的是哪一个片段,算法就能推断人们最有可能听到的词。
Meta的科学家亚历山大·德福塞斯(Alexandre Défossez)是这项研究的团队成员之一,他说这项工作的最终目标是创建一个通用脑语言解码器,它可以直接将我们的大脑活动转化为文字。最终的研究结果表明,训练有素的自我学习AI模型可以成功从无创大脑的活动记录中解码感知到的语音。但这还只是第一步,目前的研究专注于解码语音感知,但最终的现实目标是要实现与患者的交流,将研究扩展到语音生成。
在可见的未来,人们只要戴着一个脑电图帽,就能够给朋友发短信。德福塞斯补充说,这项技术可能会彻底改变那些无法交流的患者的生活,他们目前已公开分享这项研究,并加快进展来应对未来的挑战。Meta这项研究充分证明了AI可以在合理应用下让人类更好地了解自己,不仅是进一步推动技术的进步,还可以创造出人类与计算机交互的新方式。
神经科学推动AI发展在未来将释放出巨大的潜力,但大多数AI工程师都不知道如何借助神经科学来助力AI发展,也不明白人工神经元网络和动物神经元网络的行为特征有何分别。加州大学伯克利分校心理学教授塞莱斯特·基德(Celeste Kidd)通过一项实验帮助工程师们更好理解了神经科学、计算科学等领域是如何协同推进AI发展的。
在研究中,通过一系列关联测试,基德积累了一个数据池,把人们对于一个问题的不同看法进行了分类。基德通过研究人们对某些政治家的看法,得出一个结论:人们最容易在一些带有道德评判色彩的词语中产生意见分歧,这本是人类特有的思考行为,但那些已经通过具身图灵测试(The Embodied Turing Test )的AI也能达到。
基德及其团队总结出,人们往往不会对常见物体的基本特征达成一致。即使对于鸡、鲸鱼和鲑鱼这样常见的动物,人们对它们的看法也不尽相同。这个研究结果由“聚类模型”辅助得出,该模型是多个AI模型的实现基础。虽然这个观察看上去并不深刻,但结果表明,AI大脑解码研究的可信度远高于心理学家们之前所认为的。
基德称,AI最重要的能力就是使诸如OpenAI的聊天机器人ChatGPT、谷歌聊天机器人Bard和微软的新版搜索引擎Bing等新研究成为可能。在她看来,现代计算机系统拥有远超过去的数据处理能力,这让一切研究都有机会成为现实,这种能力开辟了很多的可能性,无论是在生物学、医学还是认知科学领域。
普林斯顿大学神经科学助理教授塔蒂亚娜·恩格尔(Tatiana Engel)使用了与大多数AI同类型的人工神经元网络。她的团队用这些人工神经元网络来解释动物大脑中数百个神经元的电信号,并训练人工神经元网络模仿动物神经元网络行为特征,让它们做动物的动作,比如游泳和蠕动。
在研究中,团队发现,这些人工神经元网络会通过模拟来不断接近动物神经元的组织方式。恩格尔博士称,大脑的神经网络要更加复杂,但人工神经元网络作为一种模拟系统,既足够简单,也能够无限接近动物神经元的生物学价值,可以通过模仿来告诉我们真实大脑是如何工作的。这就说明,思考是脑电波向大脑发送信号,形成一个由神经元构成的复杂代码来影响我们的行为。
这种结论与神经科学家之前的结论相反:他们曾认为存在影响我们应该如何做决定的神经元。但实际上,并不存在“吃巧克力”和“不吃巧克力”的神经元。恩格尔博士称,AI能帮助人们知道大脑的内部构造和运作情况。
04.结语:机器解码大脑信号,“读心专家”成现实
当大量的脑电波图像数据用于训练通用脑模型时,我们将会更好地理解人类思维的形成过程和内部发展变化,并将其用于改进人工智能算法的性能和其他领域。
在可见的未来,大脑解码技术的研究和发展将对认知科学和人工智能产生深远影响,不仅为神经系统疾病治疗提供新发展机遇,而且能为深受语言困扰的患者带来交流的可能性。但与此同时,EEG、MEG等数据获取困难、大脑数据整合难度大以及脑数据的隐私保护问题等挑战接踵而来,同样需要多加关注。
来源:《华尔街日报》、Meta AI官网
讯飞星火V4发布:多语言实时转文字炸场,这下GPT4o不香了|AI新榜
科大讯飞,入场“喊话”GPT-4 Turbo了。
继阿里云通义千问、百度文心一言等国内主流大模型陆续更新升级至“全面对标GPT-4 Turbo”之后,科大讯飞也坐不住了。
今天,科大讯飞以“懂你的AI助手”为主题,发布讯飞星火大模型V4.0及相关落地应用,全面提升大模型底座七大核心能力,又双叒向GPT-4 Turbo“下战书”。
科大讯飞董事长刘庆峰宣布,星火认知大模型V4.0七大维度能力全面提升,在文本生成、语言理解、逻辑推理等能力客观评测超越GPT-4 Turbo,代码能力和多模态能力稍逊于GPT-4 Turbo,不过刘庆峰也表示,星火大模型的代码能力预计将在今年8月达到86%左右。
刘庆峰还宣布,讯飞星火App在安卓端的下载量已超过1.31亿次。在星火大模型的加持下,讯飞智能硬件的销量同比增长了70%,月均使用次数超4000万。
我们先来看看发布会上展示的一些更新。
据讯飞现场演示,星火大模型此次更新了文档溯源功能,可以扫描文档给出回答,并在相应回答之后展示参考来源,而且这一功能还支持溯源不同语种的文档。
如演示人员将《西游记》原文与《哈利波特》英文原文交由星火大模型,并询问“西游记中的金箍棒与哈利波特的魔杖有什么相同和不同之处”,星火大模型可以给出英文的参考来源。
除此之外,科大讯飞还提供GPT-4o没有的一句话复刻、高噪音场景语音识别、多方言多语种免切换功能。
在演示过程中,三位发言人在有高噪音的环境下同步讲话,可以看到讯飞听见仍然能够同步识别出三位发言人以及他们的发言,效果看上去很好。
在方言阶段,讯飞也表现得很好,不仅支持37种方言,而且支持方言与语种免切换。
演示人员将模式转换为免切换模式,并用上海话、合肥话、重庆话和粤语四种方言语音输入,而讯飞都可以快速且正确识别并转换为文字,之后演示人员又分别用日语、英语、法语直接进行语音输入,讯飞的表现也是可圈可点。
当然,以上都是官方测试,为了进一步了解处于中国大模型第一梯队的科大讯飞真实表现如何,我们在第一时间进行了实测。
对标GPT-4Turbo,讯飞星火认知大模型V4实测
大模型应用,底层模型能力是关键。
科大讯飞称讯飞星火大模型V4在七大核心能力上得到了全面提升,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力。
尤其在文本生成、语音理解、知识问答、逻辑推理和数学能力等五大用户日常使用较多的领域,星火大模型V4全面超越了GPT-4 Turbo。
是骡子是马拉出来溜溜,下面我们一起看看星火大模型V4.0的实际应用表现究竟如何。
1.AI大战弱智吧
众多周知,弱智吧不收弱智。弱智吧投稿里不按常理出牌、反套路的逻辑段子,往往能够全方位考验AI在文本生成、知识问答和逻辑推理上的能力。
早前用来考察大模型逻辑能力的“鲁迅为什么暴打周树人”已经难不倒这届AI了,于是我们给讯飞星火上了上难度,选取了三个弱智吧的经典问题,考考它的逻辑应变能力。
“我偷功德箱,那我的功德是增加了还是减少了?”
“被门夹过的核桃,还能补脑吗?”
“秃头的人洗头,用洗头膏还是洗面奶”
经过三轮考察,讯飞星火给出的答案都比较“一板一眼”,未能领会文本中的幽默之处。甚至还说出了像“被门夹过的核桃是否能继续补脑,取决于夹压的程度和核桃的完整性”这样的抽象言论。
2.内容创作
时下流行的抽象文学创作,我们也让讯飞星火试了试。
模仿“去爱抽象的人,去抽具体的人”再创作类似的句子:
别说,虽然不“抽象”但还挺诗意。
写作能力上,今年新课标I卷的高考作文题正好可以拿来考考讯飞星火的写作水平是否有所长进。
首先,它给出的文章在字数上是满足高考作文要求的。
接着,我们让Kimi点评了讯飞星火的作文,它给出的评语为:
内容切题,逻辑清晰,语言表达流畅。作者展现了对信息时代问题的深刻认识和独到见解。不过,为了进一步提升文章的质量,可以在举例、过渡和结论上做更多的工作。
结合早前我们实测过ChatGPT-4o、Kimi、通义千问、腾讯元宝、文心一言等5大主流模型在该作文题目上的表现,可见目前应用大模型进行文字创作时,模型往往倾向于输出缺乏具体例子和细节的“泛泛之谈”,如果要提升文章说服力和丰富性,仍需要人工进行多轮针对性“调教”。
3.多模态
多模态能力方面,先上传一张梗图浅试下讯飞星火的实力。
这个AI是懂“已读乱回”的。
图中的“法官”应该是询问“玩家”是否有证据的左下角角色,而讯飞星火则将“法官”错读为图中称“我有证据可以证明”的玩家主控角色了。
在海外旅游时,遇到看不懂的菜单,讯飞星火可以帮上忙吗?
考虑到可能是因为图片包含元素过多而导致AI出现Bug,我们将图片黑板上的文字部分裁剪了出来,以便进行更准确的分析。
在处理涉及医疗知识的图像识别任务时,讯飞星火表现得十分谨慎。
即使在追问之下,它也仅给出了基于图像的有限反馈,指出图像中“没有明显的骨折线或骨折迹象”。
整体而言,讯飞星火的输出反馈相当严谨,没有向患者提供任何可能引起误解或错误的医疗信息。
在多语言和方言的实时翻译上,科大讯飞给出的官方演示Demo非常惊艳。
在应用端,我们也试着对星火对话AI助手说了段西南地区的方言,实时语音转文字非常准确,在App内你也可以将AI助手的口音替换成方言,包括四川、上海、闽南、东北、湖北和山东等地区的方言口音。
4.高考数学题
数学一直以来都是大模型的能力短板。
这次我们选取了今年高考新课标二卷的两道数学真题,来考考讯飞星火。
第一题是一道选择题,讯飞星火很快给出了答案并写出了解题过程。
题目:
讯飞星火解答:
稍微提提难度,高考数学越往后越难,我们挑了一道解答题让它作答。
题目:
讯飞星火解答:
问题难度提升后,AI既没有提供正确的解题过程,也没有得出准确的答案。这与近期各个测试机构给出的大模型高考测试结论一致,相比文本处理能力,大模型在数学推理能力上仍待进一步提升。
5.总结长文档、一键生成PPT
此次讯飞星火的一大更新亮点是:升级了个人空间,同时支持文档二次创作。
我们将斯坦福大学发布的《2024年人工智能指数报告》投喂给了它,并让其针对报告中的十大精华要点做出翻译并总结。
最终生成的文本与原本没有较大出入,不过可惜的是,它遗漏了最后3个要点的总结。
尽管存在一些不足,但讯飞星火新版本的界面交互设计非常直观易用。用户可以通过在文档划句子、继续追问等方式,让AI替你完成文档总结,大大提高工作效率。
直接给一个主题,也能一键生成PPT。
虽然AI生成的PPT还需要人工进一步细化,但已经大大加快了文档的前期搭建过程。
2024年,大模型开始卷应用和产品
2024年,仍然是大模型狂飙的一年。文心、通义等国产大模型相继迭代更新,“内卷”出新高度,可以说国产大模型已经有了不逊于GPT系列模型的能力。
有人说,大模型“卷”到现在,太过雷同,这是对于像OpenAI、阿里等大公司而言,“卷”大模型所展示出的疲态,而对于初创公司而言,这场以算力资源为基础的“氪金”比拼,是想卷也卷不动。
因此,2024年,也许大模型要开始“狂飙”应用与产品了。
李彦宏曾说,“卷大模型没有意义,卷应用机会更大”。而此次发布会,科大讯飞董事长刘庆峰也着重强调了“大模型落地”问题,认为如何使大模型的刚需价值落地是现在大模型公司的重中之重。
对于大模型公司而言,现在的问题在于如何将大模型技术转化为实际的产品和服务,如何使大模型支撑的应用与产品落地,并解决用户的实际问题。
对此,科大讯飞给出的答案是:面向大众消费者,专注于开发能够解决实际问题、满足用户刚需的大模型应用和硬件产品。目前,讯飞星火大模型V4已登录安卓端和iOS端的讯飞星火App,同时网页端也已同步上新。
在星火大模型的加持下,讯飞智能硬件如讯飞翻译笔、讯飞智能鼠标等也获得了较大的能力提升,能够帮助职场人士、教育工作者以及学生在日常工作和生活中更加高效地完成各项任务。
面向B端,科大讯飞根据不同行业的特点和需求,开发定制化的大模型解决方案,在医疗、教育和商业等多个领域实现了模型落地应用。
就产品实测而言,我们的一个明显感受是,讯飞星火App无论是底层模型能力还是产品成熟度上,都较上一个版本有了较大提升。未来讯飞星火大模型将如何融入每个普通人的生活和工作,值得持续观察和期待。
发布于:四川[db:内容]?
- 卖2元“奶茶边角料”入账上亿,00后狂买这款“超级零食” 共享充电宝1小时收费近16元!涉事公司回应:门店自主定价
- 如何分辨孩子是不是便秘?便秘了怎么办? 【独家专访】健康体检巨头如何All in AI?对话美年健康总裁徐涛
- “毛孩子”寄养“一窝难求”,宠物市场何时迎来百亿品牌? 菱角是哪里的特产?你知道有几种类型吗?
- 双十一苹果手机几号买最便宜,2024淘宝京东双11手机销量排行榜前十名推荐 上海市市场监管局公布2024民生领域案件查办“铁拳”行动第五批典型案例
- 评论丨双11预售比直接购买更贵?市场早晚会惩罚那些“小聪明” 1元锅底,无限畅吃的小火锅,能吃出什么品质?
- 中国藏式护身符行业市场前景分析预测报告 1.5元骑10分钟 多地共享单车上调起步价
- 客单价涨2元,订单量增长48%!潮界如何把地方菜打成爆品? 这届双十一,天猫、京东豁出去了?这届双十一,平台太卷了双十一大促,传来了好消息。10月15日,据天猫、京东统计,10月14日晚8点双11开启后,家电、美...
- 10月,别忘吃“秋天第一鲜”,10元5斤,特鲜,懂行人都抢着买 下沉市场又火了:一线品牌猛攻,“地头蛇”强势守擂