跳转至

🔥AI副业赚钱星球

点击下面图片查看

郭震AI

深度探索:讯飞星火大模型V4.0体验——全新升级,性能媲美GPT-4,中文交互流畅非凡

编辑日期:2024年07月05日

由中国自主研发的首套超大规模计算平台“飞星一号”孕育了讯飞星火大模型 V4.0,它在七大关键领域的基础能力得到全面提升,表现出超越GPT-4 Turbo的整体优势。尤其在处理复杂指令、逻辑推理、空间理解、数学问题以及基于逻辑关系的多模态理解等任务上,其性能提升尤为显著。

image

科大讯飞推出了全新优化的讯飞星火应用程序和桌面版,推出了“个人空间”功能,致力于构建个性化的人工智能助手,为每个人提供专属的支持。

为了让你们更深入地洞悉讯飞星火大模型 V4.0 的实际表现,我特意进行了详尽的体验测评,现在就来分享我的体验报告。

随着讯飞星火大模型V4.0的发布,星火应用程序和桌面版本也相继实现了功能提升。聚焦于讯飞星火Desk,当你打开主页面,会发现内容更加充实,左上角新增了“创建智能体”的操作入口,左侧菜单栏还引入了“智能体中心”,而右侧则添设了“个人空间”界面,为用户带来了全新的体验。

image

轻触左下角的头像会开启“我的”板块,而在屏幕底部中央的文本框则可供您展开对话。

image

应用程序的界面经历了显著的改版,底部菜单现由“对话”、“智能体”、“空间”和“个人”四大标签构成,每个标签都引领着独特的功能区域,提供了更为丰富的体验。

image

现在,“对话”功能已拓展至支持长文本问答。只需轻触对话框右侧的文件上传按钮,您便能便捷地上传文件以展开对话。

image

我提交了一份针对中国通信标准化协会在扩展现实产业的调研报告,请求提炼关键信息。系统迅速地生成了精准的摘要,且与报告的核心内容紧密相符。

image

接着,我针对文档的某些部分向讯飞星火 V4.0 提出疑问,例如询问它“文档中如何定义MR?”它提供了精确的答复,与文档中的相关说明完全吻合,无误。

image

只需轻触对话界面顶部的返回图标,你将无缝切换到对话列表页面,在这里,你创建的所有对话一目了然,更有权限将重要对话设为置顶,或是进行删除操作。

image

利用顶部的搜索栏,您可以输入关键词来查找相关的智能助手、在“我的空间”内的文件以及待处理的任务等信息。

image

随着生成式人工智能的进步,智能实体正逐渐成为大型模型在实际应用中的关键领域。目前,讯飞星火已推出超过16000个智能实体,广泛应用于工作、日常生活和创新创作等多个场景,构建了即刻可用的大型模型应用程序生态。

针对专业领域的细分市场,讯飞星火应用程序及桌面版已率先推出14款智能化工具,涵盖讯飞晓医、晓知、星火合同助手、讯飞智作和讯飞智文等多个功能模块。

image

以融入了讯飞星火医疗大型模型的“讯飞晓医”为例,它具备一系列实用功能,如病症自我评估、药品信息检索、中医体质辨别、检查报告解析、医疗机构及科室推荐,以及健康饮食指导等。

以一份血液检查报告为例,选取了其中两个不正常的指标,即“红细胞比容为50.80”和“红细胞计数为6.01(10^12 / L)”,交由讯飞星火 V4.0 进行分析。该系统提供的评估结果与原始检测报告一致,并能进一步揭示可能导致指标偏离正常值的可能原因。

image

在日常生活中,我们时常会遇到药品搭配的疑惑,不确定某些药物是否可以同时服用,而直接咨询医生又可能带来不便。此时,你可以利用“讯飞晓医”的拍照功能,只需拍摄两个药盒,它就能运用其专业的医药知识为你分析这两款药物是否适合一起服用。

我曾亲身经历带状疱疹,当时医生给我开了两种药物。为了验证,我拍摄了药盒,并提及手臂上的疱疹症状。"讯飞晓医"准确地初步诊断为带状疱疹,并提供了相关的疾病知识及用药指导。它建议同时服用这两种药物,这与医生的处方完全吻合。

image

除了记录药物信息,你还能拍摄你的健康检查报告并上传,利用“讯飞晓医”进行智能分析。举个例子,我曾将我的肝胆脾超声检查报告分享给“讯飞晓医”,它提供了详尽的解读,尤其在肝脏评估方面显得非常精确,指出我存在轻度脂肪肝的情况。

但请注意,最终的诊断和治疗方案应以专业医师的指导为准。讯飞晓医致力于为大家提供有价值的健康科普知识。

image

让我们探索一款极具实用性的人工智能工具——星火合同助手。它具备智能审核、合同制作、对比分析和摘要生成等多元化功能。以合同智能审核作为示例,我曾使用它来检查一份驾驶陪练合同。借助AI技术,这款软件成功地识别出合同中可能被忽视的关键细节,如培训时间表、费用结构、补考费用、电子路考训练费、教练资格以及违约责任等潜在风险。在签署合同时,这些方面往往容易被忽略。因此,星火合同助手无疑能成为我们防范风险的强大助手。

image

传统上,AI大型模型系统常处理的是公开信息,对于我们独特的个人信息,它们往往力有未逮。不过,在学习、职业和日常生活中,我们时常期望这些模型能更好地契合我们的个性化需求,构建一个专属于个人的知识宝库。为此,讯飞星火进行了全面升级,特意推出了“个人空间”功能,以满足这一需求。

“个人领域”是专为用户构建的私人知识宝库,允许上传个人文件以提升模型的专业知识问答和创新内容产生;同时,借助个性化标签、时间规划、信息定制和语音创建功能,为用户带来更为独特和有趣的体验。

默认情况下,个人空间中的文档会依据上传的时间进行排序,但你也可以选择进入各个不同的文件类别来浏览。

image

您可以挑选一个或多个文件,对选定的文件执行翻译、概括、解读、剖析或各种问答操作。只需返回修改后的文本内容,始终保持中文表述。

image

假设我分享了一张包含近期日程的手机截图,选择该图片后点击“更多问答”,就能开启聊天窗口。在对话中,我询问“接下来我有哪些安排?”令人惊喜的是,讯飞星火能精确地列举出我接下去几天的所有任务,与我在手机上原定的计划完全一致,展现出极高的准确性。

image

举个例子,假设我曾上传了一个记录某个月写作情况的EXCEL表格,选择后启用“Excel”分析功能,进入交互窗口。我先询问:“这个月我撰写了多少篇文章?”它精准地回应了21篇。接着我又问:“我所有文章的总字数是多少?”它提供了50563字的答案。我核实了一下,确实无误。

image

此外,我的私人文档库中收藏了几份有关新能源汽车核心"三电"系统的研究报告。在实验中,我挑选了五份精选文档,委托讯飞星火依据这些材料创作一篇概述新能源汽车"三电"系统的文章。要求文章全面涵盖各个要点,以下是重写后的内容:

"三电"系统在新能源汽车中的含义是什么?

新能源汽车的"三电"系统主要包括哪些技术领域?

当前,我国在新能源汽车的电池、电机和电控三大核心技术领域的进展状况。

image

显然,讯飞星火迅速生成了一段文字,其内容连贯,涵盖了所有要点,且结构条理分明。然而,文章整体风格稍显刻板,如用于实际应用,建议进行一些微调。

此外,讯飞星火 V4.0 在文本中还附带了引文标注,清晰指出每一处内容的出处,确保论据的可靠,有效避免了模型臆造情况的发生,令文章更具说服力。

讯飞星火应用程序和 Desk 现在超越了单纯的个人领域,通过引入人物设定标签、日程规划、信息定制订阅和发音人创建等功能,为用户打造更为独特且充满趣味的个性化体验。

在应用程序中,如今你可以在“我的”板块定制专属的人设标识。选择特定的标识后,大模型将会依据你的选择提供定制化的信息和回应。

image

例如,我首先让讯飞星火在没有任何特定标签的指导下,创作一篇关于如何定义最有价值生活的散文。接着,我将其个性化设置调整为“引用典故,富含文化底蕴”。之后,我再次请求它按照相同主题进行创作。现在,我将仅呈现这两篇文章的重写版本,确保不包含原文内容,并始终以中文进行回应。

image

image

显而易见,当赋予“博古通今,文化底蕴”的特征后,讯飞星火创作的短文明显融入了诸多经典名句和历史典故,如《孟子・告子下》、《论语・阳货》以及《论语・述而》等篇章,彰显出深厚的文学素养。

全面升级的讯飞星火应用程序和桌面版展现出更加强大且多样的功能,但其界面设计依旧保持整洁有序。无论是移动应用还是桌面版本,各个功能模块都呈现出清晰的层次结构。新增的智能实体进一步提升了讯飞星火的易用性和实用性。此外,个性化的个人空间和标签功能使讯飞星火能更好地理解并适应用户的独特需求,使其进化为一个更加贴心的大模型AI助手。

如前所述,讯飞星火 V4.0 在其通用性能方面对大模型基础架构的七大关键能力进行了全面提升,特别是在处理复杂指令、复杂逻辑推理、空间理解、数学问题以及基于逻辑关系的多模式理解等领域能力显著增强。此外,它还在多模态能力上实现了进一步的升级。

在这个环节,我们对这些普遍适用的能力进行了实际测评。在评估期间,我采用了GPT-4o作为参照,以便读者能更透彻地理解讯飞星火V4.0的使用感受。

目前,讯飞星火V4.0在多模态处理方面已具备视频分析和理解的技能。在实际操作中,我们对其进行了测试,上传了一段包含2023年苹果WWDC盛会亮点回顾的视频。令人印象深刻的是,讯飞星火V4.0能够精确地概述视频内容,完整提炼出视频的关键信息。

image

目前,GPT-4o 尚不具备视频分析的能力,若尝试让它处理此类任务,会得到“不支持”或“无法处理”的回应。

image

针对该视频,我提出了两道疑问:其创作者的身份和籍贯。令人满意的是,讯飞星火V4.0给出的答案准确无误。

image

接着,我向视频制作者询问了他们对苹果 Vision Pro 的见解,而讯飞星火 V4.0 成功地提供了准确的回应,证实了它能够理解视频中的信息。

image

图像理解和文字能力同样是大模型被广泛应用的领域。我们首先关注一下对图片的解析能力。

一张逗趣的网络图片引人发笑,画面中,一只可爱的小狗佩戴着奥特曼的面具。我们询问了讯飞星火 V4.0 对这张图片幽默之处的理解,它精准地捕捉到了其中的笑点。

image

之后向GPT-4o发起询问,它的回应与讯飞星火V4.0相似,同样精准地揭示了图像中的幽默之处。

image

让我们接下来通过一个几何论证题目来挑战讯飞星火 V4.0 的能力:

image

将此图片提交至讯飞星火 V4.0,经其处理后,答案准确无误,推理过程也无懈可击。

image

当求助于GPT-4o解决这个问题时,答案呈现了一种出乎意料的情况。尽管最后得出了准确的结果,但在它的推导过程中,有三分之二的步骤竟然出现了错误。在进行自我校正并调整思维路线后,它最终应用的中位线定理居然也是不正确的。

image

审视一下文字转图像的功能,这是一项如今被广泛运用的技术。我先尝试让讯飞星火 V4.0 创建一幅赛博朋克式的繁华街景,它所生成的图像相当符合预期:

image

随后,我引导它呈现出浓郁的中国风情,所呈现的图像也相当出色,生动地描绘出了古时中国繁华的街市景象。画面细腻锐利,完美契合了设定的主题。

image

GPT-4o 所生成的图像同样极具美感。

image

将其转化为中式韵味,画面上仍保留着与前作相似的整体格调,只是添入了几许中国传统建筑的风情。

image

讯飞星火V4.0的亮点之一是其强化的逻辑推理能力,评估阶段对此进行了深入的检验,主要关注该版本在逻辑思维领域的性能。

首先,我们探讨日常知识推理领域,我提出了一项疑问:

讯飞星火V4.0提供了清晰的计算过程,我仔细研究了一下,逻辑十分明了,最终得出的结果是12091天,这个答案是准确的。

image

当面临相同的难题时,GPT-4o 不仅迅速提供了准确答案,还令人惊讶地附带了计算过程的Python代码,尽管这略微降低了其完美性。

image

随后,我向对方提出了一道更侧重于逻辑推理的问题:

讯飞星火V4.0针对这个问题的解答条理分明,逻辑性强,而且具备实际操作性,没有任何疑虑。

image

在GPT-4o的运用上,其逻辑性可谓清晰,实践操作性也无大碍,但偶尔会出现答案重复的情况,描述文字相对丰富,步骤也可能显得较为繁复,这或许是需要改进的一点。

image

接着,我向他提出了一道涉及推理和联想的问题:

讯飞星火V4.0针对这个问题提供了深入的解析过程,不仅揭示了规律性的公式,而且得出的答案无疑也是准确无误的。

image

GPT-4 提供的思考过程和答案也是合理的:

image

之前我们评估了两个大型模型的逻辑推理技能,类似的,数学解题能力也是衡量它们智能程度的有效途径。在测试中,我们选用的是今年全国高考的实际考题,以此来直观地检验模型的“智慧水平”。

请提供需要重写的文本,我会为您进行深度重写。

image

这是一道涉及函数与解析几何的题目,讯飞星火V4.0顺利给出了解答,经过小编的验证,答案无误。

image

对于GPT-4,它的表现犹如雄狮狂舞,动作威猛激烈,但最终结果却未能如愿,只给出了重写后的文本。

image

让我们继续挑战更复杂的单项选择题的最后一道题目:

image

讯飞星火V4.0提供的解答简明扼要,尽管我有限的数学理解能力,解析过程依然清晰易懂,最终得出的答案也是准确无误的。

image

GPT-40 在这次解答中也达到了准确的结果,但其解题过程略显繁琐,有些环节显得并不十分必要。

image

该评估聚焦于大模型的语言理解实力,具体涵盖了从文本中提取关键信息的能力、情绪识别能力、语言翻译技能以及对模糊或多义性表达的解析能力。

在文本信息提取的能力测试中,我们挑选了两则已发布的新闻报道进行整合,要求大模型从中筛选关键内容。以下是重新组织的问题,确保不包含任何原始文本,并始终使用中文回答。

image

首先观察讯飞星火V4.0的表现,它对前两个问题的回应是精确的。对于最后一个查询,虽然它掌握了5月以及1月至5月的出口数据,但需通过计算才能得出具体差值,这需要一些推理。

image

对于前两个问题,GPT-4o 的回应精准无误,然而在面对第三个问题时,它却给出了不正确的答案。

image

让我们继续探讨情感分析的效能。我选择了2022年江苏省连云港市语文期末考试的一篇阅读理解试题作为示例,其内容如下:

image

针对这两道疑问,讯飞星火V4.0提供了相应的解答。对比讯飞星火V4.0的回答与官方标准答案,尽管措辞有所不同,但核心含义保持一致,标准答案中的关键点在它的回答中也均有涉及。

image

GPT-40 的回答是恰当的,它对原文作者的情绪理解相当精确,尤其是在第二题的解答中展现出了更为清晰的逻辑结构。

image

在翻译能力的评估上,我选择了来自知名科技媒体tomshardware的一段新闻摘录,里面包含了大量的专业科技术语,以此来挑战两个大型语言模型的翻译技能。以下是重写后的内容:

image

讯飞星火V4.0的翻译表现出色,译文既流畅又自然,语义清晰易懂。专业术语的翻译准确无误,确保了内容的完整性,没有出现错译或漏译的情况。

image

这边的翻译质量同样出色,与讯飞星火V4.0相当。

请提供一项评估,通过一个可能引起多重理解的语句来测试大模型的语言理解深度。只需返回改写的句子,确保始终使用中文。

县里发来通知,要求赵乡长在本月十五日前去报到。

通过讯飞星火 V4.0 的精准分析,我们发现句意模糊的源头可能是时间表达的不明确。提出的两种修订建议都能有效消除歧义。

image

对于这个问题的多义性分析,GPT-4的理解出现了误差,修正后的表述也未能准确传达原意,显得有些含糊不清。

image

内容创作是许多人运用大型语言模型的主要目的,它能协助我们完成各种文字创意工作。小编近期对两个这样的模型进行了实际操作,下面是重写后的版本:

当然可以,我很乐意帮您撰写一篇招聘启事。以下是重写后的文本:

我们正在寻找一些才华横溢的新成员加入我们的团队。如果您热衷于挑战,渴望在充满活力的环境中发展自我,那么这就是为您准备的机会。我们期待您的独特才能和创新思维为我们的团队注入新的活力。

我们重视每个个体的潜力,提供广阔的成长空间和丰富的学习机会。无论您是经验丰富的专业人士,还是初出茅庐的毕业生,只要您有激情、有决心,我们都欢迎您的到来。

在这里,您将有机会与业界顶尖的人才并肩工作,共同解决复杂的问题,创造出令人瞩目的成果。我们承诺提供具有竞争力的薪酬福利,以及一个支持性的工作环境,让您能够平衡工作与生活,实现个人与职业的双重发展。

如果您对此感兴趣,欢迎您将简历发送给我们,期待与您共创美好未来!

福利待遇包括:提供五险一金,基础月薪不低于15K,办公环境现代舒适,每逢佳节更有精美礼品相赠,年度团队出游活动等你加入。

生活就像一只顽皮的猫咪,有时它慵懒地打滚,让你忍不住想蹭一蹭它的肚皮;有时它突然跃起,给你一个惊喜的追逐游戏。我们都是那个追猫的人,有时被它耍得团团转,却乐在其中。工作忙碌,像猫爪下的线球,越滚越大,但别忘了,适时放下线球,享受一下猫咪蹭腿的温馨瞬间。

世界如此多彩,就像猫咪眼中的万花筒,每一瞥都有新发现。笑对每一天,就像逗猫棒挥舞,让快乐成为生活的主旋律。偶尔跌倒,不妨学学猫咪,优雅地翻个身,继续前行。面对挑战,不妨大胆一点,像猫咪扑蝴蝶,即使抓不到,那份勇气也足以让人点赞。

生活虽有起伏,但记住,你就是自己故事的主角,有自己的节奏和步伐。不必羡慕猫咪的九条命,我们每个人都有无尽的可能。所以,不妨给自己来点幽默,加点诙谐,让每一天都充满阳光和笑声。毕竟,生活这场大戏,最佳的剧本,就是让自己快乐。

文本重写:

讯飞星火V4.0的文案堪称完美,几乎找不到任何不足之处。

image

GPT-4o 编写的文案堪称卓越,不仅精准地把握住了需求,而且全方位地满足了各项要点。

image

在职场中,撰写方案或策划活动是常见的工作内容,此时可以充分利用大型语言模型的创造力来提升效率。让我们以“公司打算组织一次读书活动,需要一个活动方案”为例,来看看如何运用这种能力进行实际操作。

讯飞星火提供的解决方案相当全面,涵盖了时间规划、地点选择、目标设定、操作流程、预先筹备、团队配置、成本估算以及效果评估等各个方面,且在细节上做得十分到位,具有很高的实用性。

image

GPT-4o 的规划纲要虽精练,但涵盖了所有必要的内容,各要点一应俱全。

image

AI 大模型在编程领域的应用是许多程序员日常工作中常见的实践,这实际上凸显了这些模型在内容创作能力方面的核心价值。

在测评阶段,我首先对两大模型提出了这样的挑战:

若一个字符串正读反读皆保持不变,则此字符串被称为回文串。

我们依据可直接运行的原则,对大模型生成的代码运用编程执行环境进行详尽检验,确保其能够无误地顺畅运行。

首先,我们关注讯飞星火 V4.0,它的代码规范清晰,算法设计也颇为精炼,整体给人以整洁明快的印象。

image

由于本人不具备编程知识,遂将代码交由检测工具执行,发现其能顺利运行且得出的結果准确无误,意味着此代码可直接投入使用。

image

提供的代码具有清晰的结构,且相当精炼。

image

该软件在执行检测时能顺利运行,且表现出色,始终能获得理想的反馈。

image

综合评估后,相较于最先进的ChatGPT的GPT-4o模型,讯飞星火V4.0在普遍性能上已展现出旗鼓相当的实力。据小编的实测体验,尤其在多模态理解、逻辑推理及数学应用等方面,讯飞星火V4.0甚至展现出超越GPT-4o的优异表现。在日常生活中,使用讯飞星火V4.0就能显著提高工作效率,并在各个领域提供有力支持。

自去年五月以来,讯飞星火大模型已迅速演进至第四个主要版本,仅用了一年多的时间。在这段飞速发展的时期,讯飞星火取得了显著的成就,从最初的开放性问答系统进化为先进的AI智能助手,进一步拓展到多模态能力和全方位语音交互。不仅如此,还推出了讯飞友伴及其他功能,直至现今引入智能体和个人空间等创新特性。在不断强化其全面性和功能性的道路上,讯飞星火也敏锐地捕捉到了用户对个性化内容生成的需求。如今的讯飞星火V4.0已成为最全面、应用范围最广的AI大模型产品之一。

发布会上,科大讯飞详述了其讯飞星火大模型在关键领域的实践,如国家能源集团、中国石油、中国移动、中国人保、太平洋保险和交通银行等,这彰显了讯飞星火在人工智能大模型领域的自主性和独特优势。通过体验讯飞星火 V4.0,我们对它在AI领域的未来发展寄予厚望,坚信它将持续演进,推动国产AI大模型技术及应用生态达到国际领先水平。

以上全文,欢迎继续阅读学习

大家在看

京ICP备20031037号-1 | AI之家 | AI资讯 | Python200 | 数据分析