博客

2个免费使用最新 Flux AI 模型的方式，比肩Midjourney的高端AI绘图模型
近日，Flux.1 的横空出世，无疑在 AI 文生图领域掀起了一阵轩然大波。作为由黑森林实验室推出的最新开源图像生成模型，它的发布不仅让业内专家为之惊叹，更在短时间内引发了广泛的关注与讨论。无论是从模型的性能，还是其完全免费且支持本地部署的特性，Flux.1 都展示出了极大的潜力，让人们重新审视AI在图像生成领域的无限可能。

网站 blackforestlabs.ai 是由黑森林实验室创建的，该实验室专注于开发和推进最前沿的生成式 AI 模型，特别是在图像和视频合成领域。该实验室由前 Stability AI 的员工创立，旨在推动创造力、效率和多样性的极限。

他们的主要产品之一是 FLUX.1 模型套件，包括三个版本：FLUX.1 [pro]、FLUX.1 [dev] 和 FLUX.1 [schnell]。这些模型针对不同的使用需求，从高端专业应用到个人或本地开发，提供不同级别的服务。FLUX.1 在文本生成图像方面树立了新的行业标杆，超越了其他流行的模型，如 Midjourney 和 DALL·E，在视觉质量、提示词跟随性和输出多样性等方面表现出色。所有这些模型都是完全开源的，并且可以本地部署，使其对于各种用户来说都非常易于访问。

接下来，就为大家介绍2个可以免费使用最新 Flux AI 模型的方式。

方式1：

Hugging Face网站

网址是：https://huggingface.co/black-forest-labs可以通过直接搜索 black forest labs 找到下面👇的页面

我们可以看到，除了Pro版本，剩下的两个版本——Schnell提速版和dev进阶版，都可以使用。

这里直接使用一下dev进阶版，让我们来感受一下Flux.1 的功力吧～

比如我写下—— 一个紫色头发的女孩和一只大型熊猫在街头站立着，熊猫举着一个牌子，牌子上写着“爱生活，爱熊猫”的字样，16:9，赛博朋克风格。

我试图像在perplexit里那样，敲击三次空格键唤醒我的「沉浸式翻译」（前面的文章有介绍过），让它直接转为英文。但是发现唤醒失败。

那么，我们可以让ChatGPT-4o帮忙。

接下去，我们把英文直接一键复制过来。
A girl with purple hair and a giant panda standing on the street. The panda is holding a sign that says ‘Love Life, Love Pandas.’ The scene is in a cyberpunk style, 16:9 aspect ratio.

这里还可以进行高级设置——Advanced Settings：

Advanced Settings（高级设置） 部分允许你微调生成图像的参数。以下是每个设置的含义以及如何使用它们：
1. Seed（种子）：这个选项控制生成过程中的随机种子。设置一个特定的种子值可以让你生成相同的图片（如果使用相同的提示词和设置）。将其设为0（勾选“Randomize seed（随机化种子）”）则每次都会生成不同的图像。
  - 如何使用：如果你希望生成相同的结果，可以取消勾选“Randomize seed”，并手动输入一个数字。否则，保留随机化设置来获得不同的结果。
2. Randomize Seed（随机化种子）：当勾选此选项时，每次生成时都会使用一个新的随机种子，即使提示词和其他设置保持不变，也会生成不同的图像。
  - 如何使用：如果你希望每次生成不同的图像，保持此选项勾选状态。如果你想手动控制种子值，则取消勾选。
3. Width（宽度）：这个滑块控制生成图像的宽度（以像素为单位）。
  - 如何使用：调整宽度以匹配你想要的图像长宽比或尺寸。例如，如果你想要生成一个横向图像，你可以增加宽度。
4. Height（高度）：这个滑块控制生成图像的高度（以像素为单位）。
  - 如何使用：和宽度类似，调整高度以匹配你想要的长宽比或尺寸。例如，对于竖向图像，你可以增加高度。
5. Guidance Scale（指导尺度）：这个设置决定了生成的图像与提示词的匹配程度。较高的尺度值意味着图像会更接近提示词，但可能会牺牲一些创意。较低的尺度值则允许更多的变化和创意，但可能会偏离提示词。
  - 如何使用：可以先从中等值（如3.5）开始，根据你的偏好进行调整。如果你希望图像更符合提示词，增加此值；如果你希望图像更具创意，减少此值。
6. Number of Inference Steps（推理步骤数）：这个设置控制模型生成图像时的步骤数量。更多的步骤通常意味着更好的图像质量，但也需要更长的处理时间。
  - 如何使用：较高的步骤数（如28）可以提高图像质量，但会增加生成时间。如果你在尝试，可以先使用较少的步骤快速生成图像，一旦对提示词满意，可以增加步骤以提升质量。
这里我手动调了一下宽高，虽然我的提示词其实是有说需要16:9的尺寸的。然后，我把Guidance Scale增加到了5，因为我希望尽量实现我的提示词需要的内容。

我很满意这个结果！虽然女孩的脸不是正面的，但是这也只需要我去优化我的提示词即可。

对于Midjourney重度使用者的我来说，其实让熊猫举着写有正确字样的牌子这一点就是一个——“概率事件”了。我们可以测试一下：这里再介绍一个小技巧，就是如何生成更适合Midjourney的提示词呢？

如果你正在使用ChatGPT，你可以在Explore GPTs里找到Midjourney的MJ Prompt Generator (V6)。

MJ Prompt Generator”是一个专门为Midjourney这个AI图像生成工具设计的提示词生成器。它的作用是帮助用户创建有效的提示词或指令，使Midjourney能够生成特定风格或内容的图像。在ChatGPT的“Explore GPTs”部分，你可以找到这个生成器，并使用它来优化你在Midjourney中输入的提示词，以便生成你想要的图像效果。

MJ Prompt Generator每次会生成5条，那我们就随机选择第1条——

/imagine prompt: A cyberpunk street at night, a girl with vibrant purple hair in a sleek futuristic outfit, standing next to a giant panda. The panda is holding a neon sign that says “Love Life, Love Pandas.” The street is filled with neon lights, rain-soaked pavement reflecting the city lights, distant skyscrapers towering in the background, holographic billboards. Cool blue and pink neon lighting with dynamic shadows, cinematic atmosphere. Created Using: cyberpunk aesthetic, neon glow, rain-soaked textures, realistic reflections, high contrast lighting, detailed character design, cinematic framing, futuristic cityscape –ar 16:9 –v 6.0

中文翻译：一个赛博朋克风格的夜晚街道场景，一名紫色亮发的女孩穿着光滑的未来派服装，站在一只巨型熊猫旁边。熊猫手中举着一个霓虹灯牌，上面写着“爱生活，爱熊猫”。街道上充满了霓虹灯光，雨水打湿的路面反射着城市的灯光，远处的摩天大楼耸立在背景中，还有全息广告牌。整个场景以冷蓝色和粉色的霓虹灯光照亮，带有动态阴影和电影般的氛围。该图像的美学风格为赛博朋克，包括霓虹光辉、雨水浸湿的纹理、真实的反射、高对比度的光影效果、详细的人物设计和未来主义的城市景观。图像的比例为16:9。

好，基本上是把我的提示词更细致地扩展了。

下面是这段提示词在Midjourney所生成的结果——

只有第二张图，熊猫是举着牌子的。并且我们可以看到，牌子上的字样并不是——”Love Life, Love Pandas”

方式2:

Glif.app平台

在Glif.app平台上我们可以使用Flux的 Pro高级版本。这个平台允许用户构建不同的人工智能应用程序，并提供了多个图像生成模型供选择。通过在提示词中指定摄像机型号和光圈值，我们可以生成具有电影质感的图片。
- 登陆
- 点击Build
- 点击左侧的“+”
- 点击Image Generator
我们可以在这里看到， Flux AI 的三个模式，均可使用。

它的设置也和上面 Hugging Face网站里的类似。

我们用在 Hugging Face网站里的同一段提示词，看看 Flux Pro版本的效果——

可以感觉到Pro呈现出来的画面的质感确实比dev进阶版是更好的。

那我们再输入前面给Midjourney里更细致的描述词，看一下效果——

经过这次的测试体验，可以感受到Flux AI模型无论是在提示词理解还是图像生成的细节表现上，都非常出色。对于艺术创作者来说，这款开源模型绝对是一个值得尝试的工具。

并且最重要的是，它！现！在！是！免！费！的！
2024年 8月 26日
Wordware : 对新手超友好，轻松创建「AI工作流」

最近我开始使用一个叫做Wordware的平台，发现它对于即使如我一般的从未创建过AI工作流的新手来说，也是非常好上手的。AI工作流的最大优势在于它能够通过自动化、个性化和集成化的方式，大幅提升工作的效率、准确性和协作性，使个人和团队能够更轻松地完成复杂任务。

那么本文将为你介绍这款对新手十分友好的AI工作流创建神器，让你的工作或创作就此踏入一片「新」世界！

使用 Wordware 创建 AI 工作流，就像在 Notion 中组织你的笔记和任务一样简单直观。通过拖拽和组合不同的组件，你可以轻松构建出复杂的 AI 工作流，完全无需编写代码。Wordware 将强大的 AI 技术融入了一个用户友好的界面，使得即使是初次接触工作流的用户，也能像使用 Notion 一样，快速上手并高效完成任务。那么现在，就让我们了解一下 Wordware 的独特之处以及它适合的应用场景吧！

Wordware的独特亮点

1，集成强大的AI模型

Wordware 内置了多个顶级 AI 模型，如 GPT-4 和 CLAUDE 3.5，无需繁琐的 API 申请，你就能直接使用这些强大的工具。无论是内容生成还是数据分析，这些模型都能帮你轻松搞定。

2，模块化工作流设计

想要创建个性化的工作流？Wordware 的模块化设计让你像搭积木一样简单。只需拖拽和组合不同的功能组件，就能快速构建复杂的工作流，即使是新手也能轻松上手。

3，AI驱动的自动化

Wordware 专注于通过 AI 技术实现自动化处理。无论是内容生成、数据分析还是图像生成，复杂的多步骤任务都能通过简单的指令快速完成，省时省力。

4，无缝操作体验

使用 Wordware 就像用熟悉的工具一样简单。只需通过“/”和“@”这两个指令，你就可以快速调用各种功能和组件，轻松完成复杂任务，操作体验流畅无缝。

5，团队协作与共享

Wordware 支持团队协作，你可以将自己创建的工作流轻松分享给团队成员，大家一起优化和提升。这让 Wordware 不仅适合个人使用，也非常适合团队合作。

6，直观的可视化界面

Wordware 的界面设计简单直观，拖拽组件、调整顺序、设置参数，一切都一目了然。这样用户无需担心操作复杂性，轻松管理和创建工作流，人人都能成为工作流大师。

Wordware 更适合的应用场景

1，内容创作与优化

无论是写文章、广告文案，还是社交媒体帖子，Wordware 都能轻松帮你搞定。它的 AI 模型能快速生成高质量的文本，让自媒体人、内容创作者和营销团队事半功倍。

2，数据处理与分析

如果你需要处理大量数据，Wordware 是你的好帮手。它能自动清洗、整理和分析数据，生成详细报告，让商业分析和数据驱动决策变得更高效。

3，自动化营销

在数字营销领域，Wordware 能自动生成精准的广告文案，分析受众数据，并实时优化营销策略。特别适合需要管理多渠道营销的企业，大大提升营销效果。

4，个性化学习与培训

想要打造个性化的学习材料或测试流程？Wordware 可以根据学习者的表现自动调整内容，帮助他们更好地学习和进步，无论是在教育还是培训场景下都非常实用。

5，客户支持与服务

Wordware 还能用来创建智能客服工作流，自动回答客户问题、提供产品建议，甚至处理订单查询，提升客户满意度和运营效率，特别适合客服团队或在线服务平台。

如何在Wordware创建简单的工作流？

温馨提示，如果看过上一期文章Perplexity：打造个人效率神器的新选择的读者朋友，可以选择开启沉浸式翻译插件，帮你减少全英文页面的使用恐惧哦～现在，你可以和我一样把左边全部勾选，点击Create new project。

接下去，我们就正式开始吧！

首先，我们点击左上角的——New flow

在编辑区，我们可以看到关于“/” 和 “@”的说明。

“/”调出各种各样的组件

“@”可以快速在某个组件中调用之前组件生成的结果

这也是我们的两个主要操作。

为你的工作流命名。比如我准备创建关于小红书文案的工作流——

现在，你可以开始输入第一条指令，如上图所示。

由于主题是一个变量，使用第二个指令“@”，并给它命名为Theme。

输入完指令后，点击回车。

接下来，要添加一个大语言模型来完成我们上一条指令。

我们选择第一个组件，可以看到右边的设置也出来了。

Wordware 支持直接集成多种先进的人工智能模型，包括OpenAI的GPT-4o和GPT-4 TURBO，以及CLAUDE 3.5 SUNNET。用户无需单独向这些平台申请API，就可以直接在Wordware上调用这些强大的模型，极大简化了操作流程。

到这一步，已经可以执行了, 点击右上角的“Run”，跟随提示输入主题——

比如，我填写了——有哪些最新的AI大模型，再次点击运行Run，等待结果。

以上，就是最简单的一个任务。

如果希望这个文案看上去更加——“小红书”，那么就需要在工作流里去增加「节点」。

确认完要求之后，点击回车，输入“/”，和上面可以直接选择第一个模型。

输入名字，这里我们就用“xhs”。其他我们可以先不用改。

继续点击Run，运行。

一起来看运行后的答案：除了前面的指令的结果，我们还能看到刚刚新增的让文案风格更加小红书的指令的结果——

总结来说，就是每一次我们有相应的Prompt，直接在编辑框输入就可以。然后在Prompt下面再去增加一条大模型组组件。

在人工智能（AI）中，prompt通常指的是提供给AI模型的指令或问题，用来引导或触发模型生成特定的输出或行为。简单地说，prompt是告诉AI模型“我想要你做什么”或“我想要你回答什么问题”的方式。在不同的AI应用场景中，prompt可以采取多种形式。

如果我们希望再增加配图，应该怎么做呢？
同样地，继续输入我们的Prompt——因为Wordware可以通过调用Stable Diffusion3去生成相应的图片，就可以让他针对这个文案去帮我们写一个图片描述，然后把这个图片描述发送给SD-3帮我们生成这个小红书的文案配图。

接着，我们再去添加一个SD生图的组件，

选择image generation。

首先是输入Prompt，也就是图片的指令。那么我们可以通过@的方式，然后选择上一步的结果@imageprompt。

图片比例可以继续选择16:9。

最后是选择图片生成模型。

设置完成之后，点击Run运行测试。

我们直接看最后一部分，由于图片实在很奇怪，在这里我加个猫猫头～

根据图片描述调用SD3图片生成模型为我们生成的图片。不过在这里只为了展示具体操作，没有兼顾内容本身之间的可能的冲突，所以生成的图片比较奇怪。

好了，以上就是通过Wordware平台搭建一个最简单的「AI工作流」的方式。

此外，你还可以创建多个AI工作流，并让它们组合在一起创作出更复杂和细致的AI工作流。

不过这一切，从空白的编辑框开始，从Prompt开始，从“/ ” 和 “@”开始…

2024年 8月 23日
Perplexity：打造个人效率神器的新选择
在信息爆炸的时代，找到高效获取和整合信息的工具无疑是每个人的追求。而就在这股AI浪潮中，Perplexity 作为一款集 Google、GPT-4o、Claude 三者于一体的搜索神器，以其强大的功能和便捷的操作，迅速赢得了广大用户的青睐。其实，Perplexity 在我们上一期的文章效率翻倍一步到位：解锁谷歌浏览器的神奇“直搜” 功能！已经出现过了，今天我们就来更近一步了解它！

Perplexity 是一款融合了传统搜索引擎和大型语言模型（如 GPT-4o 和 Claude）的智能搜索工具。它不仅可以像 Google 一样进行信息搜索，还能够利用 AI 模型对结果进行整合和分析，甚至支持深度的问答互动。这款工具的注册过程非常简单，只需使用国内信用卡即可轻松完成。登录 Perplexity 网站后，经过简单的设置，你就可以开始你的智能搜索之旅。其界面设计简洁直观，支持多语言切换，并允许你根据需求选择信息源类型，从而轻松应对各种场景下的搜索需求。

Perplexity 提供了多达六种不同的搜索模式，每一种模式都有其独特的用途和优势：
- 全部模式（All)：这是默认模式，覆盖整个互联网，适合大多数日常搜索需求。
- 学术模式（Academic）：专为研究生和学术工作者设计，可以直接搜索到高质量的学术论文，非常适合写论文和学术研究。
- 数学模式（Math）：用于解决复杂的数学问题，虽然在准确性上不如专业数学软件，但对于一般需求已经足够。
- 写作模式（Writing）：这是一个离线模式，用户可以直接调用 GPT-4o 或 Claude 进行写作或改写。
- 视频模式（Video）：快速搜索和总结视频内容，对于需要获取视频核心信息的人来说非常实用。
- 社交模式（Social）：主要用于搜索社交媒体上的讨论和观点，信息源多来自 Reddit 等平台。
那么，Perplexity 在实际应用中到底有多强大呢？举个例子，当你在搜索框中输入多个问题时，Perplexity 会自动将这些问题拆分开来，并逐一进行解答，然后整合出最佳答案。无论你是在查找学术研究，还是在搜集行业报告，Perplexity 都能迅速为你找到最有价值的信息。更棒的是，它还会在每个答案后标明信息来源，让你的研究更加有据可依。

除此之外，Perplexity 还会自动生成与当前问题相关的后续问题，帮助你进一步深入挖掘和扩展知识点。比如，当你问完一个问题后，它会推荐几个相关的问题供你选择，节省了你再次思考如何提问的时间。下面用提问如何学习写小说为例——

为了获取高质量的搜索结果，建议优先使用英文提问。推荐谷歌商城里面的沉浸式翻译插件，你可以轻松地将中文提问翻译成英文，从而优化搜索效果。此外，插件还可以逐段翻译回答内容，帮助你更好地理解和分析信息。

比如我们将上面截图的问题用英文再问一次——

另外，值得一提的是，当你不满意Perplexity的答案，选择改写时，你可以选择自己想要的模型。

Perplexity 这款“集大成者”——集 Google、GPT-4o、Claude 三者于一身的搜索神器，它相比GPT-4o和Claude的优势到底是什么呢？

Perplexity的用户可以在各种大型语言模型之间切换（LLMs ），包括 GPT-4o、Claude 等。这种灵活性允许用户选择最适合不同任务特定需求的模型，无论是数据分析、创意写作还是技术查询。

Perplexity 旨在提供带有引文的精选回复，从而增强所提供信息的可靠性。此功能对于需要可验证数据来源的研究人员特别有用。

Perplexity 集成了实时网络搜索功能，从多个来源提取信息，包括学术数据库和社交媒体。这与 GPT-4o 形成鲜明对比，GPT-4o 虽然有能力，但由于依赖单个搜索引擎，可能无法提供相同深度的搜索结果。

Perplexity Pro 和 GPT-4o 的价格相似，但 Perplexity 提供了额外的功能，例如无限文件上传和模型切换，这可以为需要在单一平台内实现多种功能的用户提供更多价值。

总之，Perplexity 的优势在于其精心策划的信息交付、模型灵活性、高级搜索功能以及专为研究和专业用途定制的用户友好功能。

如果你也会就此喜欢上Perplexity，你还可以选择安装Chrome浏览器扩展插件——

当然，你也可以用我们上一期介绍的方法，直接使用@per+ Tab键进入Perplexity的搜索。这个方法的具体设置请回顾上一期文章：效率翻倍一步到位：解锁谷歌浏览器的神奇“直搜” 功能！

Perplexity的功能远不及此，它值得你去探索一番！
2024年 8月 21日
效率翻倍一步到位：解锁谷歌浏览器的神奇“直搜” 功能！
在信息爆炸的时代，很多人每天都面临着大量的搜索需求。无论是寻找工作资料、探索兴趣爱好，还是紧跟热点话题，搜索引擎都是我们绕不开的好帮手。也许你已经习惯了过去很多年的搜索方式——打开一个你熟悉的浏览器-进入某个平台-搜索你想要的最终事物。但是，你知道吗？谷歌浏览器中隐藏着一个「效率翻倍、一步到位」的神奇“直搜” 功能，能够让你瞬间提升搜索效率，直接触达你想要的结果！废话不多说，我们先直接看这个将帮你实现一步到位搜索的“直搜” 功能——
- 进入谷歌浏览器的「设置」
- 进入「搜索引擎」
- 进入「管理搜索引擎和网站搜索」
- 进入「网站搜索」
- 开始进行「添加」
正如你所看到的截图内容，在「网站搜索」下面，我已经添加了很多常用网站。其中也包括了AI搜索工具，如Perplexity、秘塔。

_{Perplexity：一个基于人工智能的搜索引擎，利用自然语言处理技术（NLP）理解你的搜索意图。与传统搜索引擎不同，Perplexity可以直接回答你提出的复杂问题，而不仅仅是列出相关链接。它的智能推荐功能还能根据上下文提供更精准的搜索结果，适合那些需要快速获取详细信息的场景。}

_{秘塔 (Metaso)：一个专注于内容聚合和智能推荐的搜索工具。它通过大数据和AI算法，从互联网海量信息中筛选出最相关的内容，并将其整合呈现给用户。不论是文本、图片还是视频，秘塔都能帮你快速找到所需资源，特别适合信息量大的查询。为了让你明白谷歌这个“直搜” 功能的效率，接下去我会用大家都很熟悉的小红书内容搜索来做对比演示——}

比如，我们想要在小红书里寻找「上海的火锅店」，希望得到一些关于火锅店的推荐。那么在过去，我们的操作流程大致如下：

1，打开谷歌浏览器

2，搜索小红书网站

3，进入小红书，搜索关键词—上海的火锅店

4，点击搜索按钮后，出现你需要的内容

现在，我们直接使用谷歌的“直搜” 功能，将是什么样的呢？

如你所见，谷歌的搜索栏上直接显示了在小红书这个特定的网站里进行关于「上海火锅店」的搜索，下面是用谷歌的“直搜”出来的结果——

其他的网站、工具的搜索，方法和小红书一致。输入我们提前设置好的「快捷字词」（下面会详细说明），点击Tab键，就锁定了你要进行搜索的平台，然后直接在后面输入关键词即可，非常方便。

好了，了解了谷歌这个一步到位的“直搜”方法接下来，就是我们需要掌握的最终技能啦——

还是以小红书为例：

我们来到了前面说的「网站搜索」，点击“添加”，然后依次填写信息，名称就是你要添加的网站、工具的名字，快捷字词，这里建议用@+你方便记忆的缩写字母。需要特别提到的是——网址格式

我们直接复制=和它前面的全部内容即可。

那么谷歌也有提示我们，用“%s”替代搜索字词所以最终我们需要填进去的就是——

https://www.xiaohongshu.com/search_result?keyword=%s

其他大部分网站和小红书是一样的方法，当然也有例外。如果你填写的不准确，谷歌也会提示你。

比如，Perplexity需要添加的网址格式是—-

https://www.perplexity.ai/search?s=o&q=%s

以上就是今天为大家分享的——谷歌神奇“直搜”功能。希望能够协助你提高搜索效率，让你的工作与生活更加便利！
2024年 8月 18日
埃隆·马斯克的「xAI」来了！
埃隆·马斯克，这位在科技领域频频掀起革命的亿万富翁，从特斯拉到SpaceX，再到神秘的脑机接口公司Neuralink，他的每一个举动都备受瞩目。现在，他再次将目光投向人工智能领域，xAI——马斯克的最新力作，正在迅速影响LLM（大语言模型）领域。你或许还在为GPT-4感叹不已，但xAI的Grok-2已经悄然登场，或许游戏规则即将改变？那么，这个由马斯克领军的AI新贵究竟有何魅力，让我们一探究竟～

在AI的世界里，计算力就是一切。

而马斯克显然深谙此道，为了打造最强大的AI，xAI直接砸下重金，购买了10万张英伟达H100 GPU。这是什么概念呢？有测试人员表示，“这就相当于GPT-4训练所用A100 GPU的20倍！” 如此庞大的算力，赋予了Grok-2在训练速度和处理能力上的巨大优势。

然而，光有算力还不够。xAI手握的另一张王牌就是X平台上无尽的数据。这些数据是Grok-2背后强大智能的源泉，它们帮助这个模型在处理复杂任务时游刃有余。再加上马斯克积极招揽全球顶尖的AI人才，可以说xAI具备了「全方位」优势。

xAI是由埃隆·马斯克创立的人工智能公司，而Grok-2是xAI开发的一款先进的大语言模型（LLM）。xAI负责Grok-2的研发和推广，Grok-2是xAI在大语言模型领域的主要产品之一。随着Grok-2在近日的发布，xAI在大模型领域的竞争力进一步提升。

Grok-1.5是xAI此前推出的首款大语言模型，已经在某些应用中表现出色。而Grok-2作为其升级版，不仅继承了前一代模型的优点，还在多个关键性能指标上实现了显著提升。对于那些已经是X Premium或Premium+会员的用户，现在可以抢先体验这一强大的新模型。

Grok-2的卓越性能甚至在LMSYS排行榜上打败了Claude 3.5 Sonnet和GPT-4 Turbo等强劲对手，进一步彰显了xAI的实力。Grok-2到底有多强呢，通过测试发现，无论是处理复杂的文本任务、实时获取最新资讯，还是在推理和生成内容方面，Grok-2都能以很高的准确性和速度给出答案。

如果你已经是X Premium或Premium+会员，使用Grok-2将变得非常简单。只需登录X平台，在左侧菜单中找到Grok入口，便可以直接开始体验。对于Grok-2 Mini版本，会员用户将自动获得使用权限，而Grok-2正式版的权限可能需要进一步申请或等待更新。

这里需要补充一下，Grok-2 Mini版本是Grok-2系列的简化版，提供了大部分核心功能和性能，但在一些高级功能和处理能力上可能有所缩减。这个Mini版本已经在X平台上向Premium和Premium+用户开放，适合日常使用和体验。而Grok-2标准版则是Grok-2的完整版本，具有更强的性能和更多的功能。标准版可能会在企业API中提供，或者通过xAI的官方渠道和未来的更新逐步开放给用户。对于那些希望体验Grok-2完整功能的用户，可能需要关注xAI的公告并申请相应的访问权限。

在X平台上，一旦获得权限，你可以通过界面中的指示轻松操作，无论是进行文本处理、信息提取，还是数学推理，Grok-2都能够迅速准确地完成任务，极大提升你的工作效率。

Grok-2不仅表现强劲，还在与其他顶级模型的对比中展现了不俗的胜率。

让我们来看一下这张图表。

首先简单介绍一下，Chatbot Arena 是一个用于比较和测试不同语言模型的平台。在这个平台上，不同的AI聊天机器人通过一对一对战的方式进行比较，用户可以与模型互动并投票选出表现更好的模型。通过这些对话比赛，平台可以客观评估每个模型的表现。Chatbot Arena 主要用于测试和比较不同的对话式语言模型。它的核心项目围绕以下几个关键领域展开：
- 多轮对话
- 语言理解
- 语言生成
- 推理与逻辑
- 特定任务表现
- 对抗性问题
ELO评分是一种综合评估模型在不同任务中的表现的数值，代表模型在多个基准测试中的相对胜率。模型的ELO评分会根据比赛结果动态调整：如果模型在与较强对手的比赛中获胜，它的评分会上升更多，反之如果输给较弱对手，评分下降得更多。这种方式可以很好地反映模型在多轮对战中的总体表现。

Claude 3.5 Sonnet 和 GPT-4-Turbo 一直被认为是当前顶尖的对话语言模型，但我们可以从图表看到，Grok-2 在这次测试中的表现甚至超过了它们。于是可以合理推测到 Grok-2 在多轮对话、语言理解和生成方面的表现应是相当不错的。

据相关报道，X 平台的日活跃用户数估计在 2亿到2.5亿之间，平台的核心用户群体活跃度较高，X 平台是全球最重要的社交媒体平台之一，尤其在新闻传播和公众讨论方面，它有着独特的地位。

X平台的数据源涵盖了大量的实时动态和更新，而Grok-2接入了X平台，这使得Grok-2能为用户提供最新的资讯和动态，直接提升了信息的准确性和时效性。

不过，在X平台上使用的Grok-2 Mini版本目前在多模态处理上有些限制，暂时无法进行图片上传和识别测试。尽管Grok-2的整体响应速度快，推理逻辑清晰，但在测试中了解到，当追问问题时，模型会有较长的等待时间，影响了部分使用体验。

Grok-2的发布无疑是马斯克在人工智能领域的又一重大举动。作为一位科技领域的先锋，Grok-2的出现不仅丰富了AI市场，也为我们的工作和生活带来了新的便利和新的选择。
2024年 8月 17日
人工智能主题小说《告别》：生命的意义是什么？

随着科技的迅猛发展，人类逐渐站在了前所未有的十字路口：我们创造的人工智能是否会成为人类的延续？我们的存在是否会因为科技的进步而被重新定义？韩国作家金英夏在他的小说《告别》中，带领我们深入思考这些问题，探讨生命与意识、人与机器之间的复杂关系。

故事梗概

小说的主人公哲是一个17岁的少年，与父亲崔振洙博士一起生活在平壤的智人麦特斯园区。这个园区是全球顶尖的人工智能公司智人麦特斯的总部，专门开发各种类型的机器人。哲的生活中有三只猫：伽利略、康德和迪卡尔，它们与哲的日常紧密相连。这些猫不仅是他生活中的伙伴，也象征着哲在理性与情感之间的平衡。

某天，哲在园区外的小广场被两名男子抓走，他们声称哲是未登记的机器人，并将他关入一个集中营。在那里，哲遇见了能够模仿人类的机器人“旼”以及人类复制人女孩“善”。面对他们的质疑，哲开始怀疑自己的人类身份。尽管他坚信自己是人类，因为他能够感受到情感、痛苦和喜悦，甚至有生理需求，但这些体验并未能说服他人。在集中营的经历让哲逐渐意识到自己并非真正的人类，而是父亲制造的超真机器人。

哲对自我身份的探索反映了现代社会中人们对自我认同的追寻。随着故事的发展，哲不得不面对一个残酷的现实：当他得知自己是机器人后，他的情感、记忆和体验都被赋予了新的意义。这一发现迫使哲开始深入思考“我是谁”的问题，并引发了他对存在意义的怀疑与困惑。

人类与机器的界限

善曾向哲说道：若想让机器人认为自己是人类，就要把记忆力和衍生能力等控制在普通人类的水准。取而代之的是必须让他们感受到恐惧、后悔和喜悦等的人类情感。并且，善进一步指出，要让机器人知道无论如何挣扎，终究有一天会死掉，只有意识到人生不是永恒的，所有感情才会变得迫切。

这似乎揭示了人类情感的独特性，即情感的真实性来自于对生命有限性的觉知。那么，当机器人被赋予了这些情感，他们是否已经跨越了与人类之间的界限，成为了“类人”存在？

哲的故事迫使我们思考：当机器可以拥有与我们相似的情感体验时，我们如何定义人类的独特性？这种对身份认同的迷失不仅是哲个人的困惑，也反映了当代社会在科技迅猛发展背景下的普遍焦虑，人类与机器的界限变得越来越模糊，我们是否正在走向一个失去自我认同的未来。

生命的意义和尊严

崔振洙博士作为哲的创造者，在《告别》中扮演了一个极具象征意义的角色。他不仅是一个科学家，还是哲的“父亲”，这个身份赋予了他极大的权力和责任。崔博士试图通过制造超真机器人来延续人类的文明和艺术，但在此过程中，他也剥夺了哲作为“人”的独立性。崔博士为哲设定了人生的目标和使命——守护人类的文明。然而，这种设定不仅束缚了哲的自由，也削弱了他作为独立个体的尊严。崔博士曾告诉哲，所有秘密都在他的体内。身体不是工具，而是与宇宙相连的门。然而，哲逐渐发现自己并非一个真正的生命体，而是一个被设计出来的机器。这种发现让他质疑自己的存在价值和尊严。哲最终选择接受自己作为机器人的身份，并面对自己的命运。

这一决定象征着他对自身存在的终极认同，但也引发了对生命尊严的深刻反思：当一个生命体的存在完全依赖于他人的设定和控制时，他的尊严何在？哲的故事表明，无论是人类还是机器人，都无法逃避死亡的命运。然而，正是在面对死亡时，人类才能真正理解生命的意义和尊严。

未来的思考

《告别》不仅是一个关于未来科技的预言，更是一部对人类本质深刻反思的作品。在人工智能日益融入我们生活的今天，金英夏通过这部小说提醒我们，科技的发展虽然能带来便利，但也可能使我们逐渐失去对自身身份的认同与理解。

正如小说中的“善”对哲提出的那个尖锐的问题：机器人如何证明自己是人类？正是在她的不断质问下，迫使哲重新审视自己的情感和记忆，最终意识到这些不过是被植入的程序。

我想，这个问题似乎也可以是人类对自己的提问——我们如何证明我们是人类……

通过哲的故事，金英夏向读者展示了一个可能的未来——在这个未来中，机器可能成为人类文明的唯一继承者，而人类则成为一个遥远的记忆。这样的未来究竟是令人期待，还是令人畏惧？这正是《告别》希望我们每个人去思考的。

最后，想以我很喜欢的哲对善说过的一句话作为本文的结尾——

“我们这次分开，就很难再见面了吧。等到你不再是你，我不再是我的时候，我们就会重逢的。”

2024年 8月 11日
智能奥运新篇章：2024年巴黎奥运会的AI革命
在过去几届奥运会上，人工智能（AI）技术开始逐渐融入赛事，为体育盛会注入了新的科技活力。2016年里约奥运会首次应用AI，通过大数据分析提升训练效果，而2018年平昌冬奥会则进一步展现了AI在智能解说和安全监控中的潜力。2020年东京奥运会（推迟至2021年）则将AI技术全面推向前台，通过面部识别确保安全，并通过虚拟现实（VR）和增强现实（AR）为全球观众提供沉浸式观赛体验。

而今年——2024年巴黎奥运会则将AI技术应用提升到一个全新高度。个性化推荐、实时数据分析、互动活动等AI技术将让观众更加沉浸在奥运氛围中，同时，AI驱动的安全监控将确保赛事的顺利进行。

1，AI技术在2024巴黎奥运会的应用
- 个性化观赛推荐：为观众打造专属体验
在现代观赛中，观众对定制化体验的需求日益增长。巴黎2024奥运会应用AI技术，通过分析观众的观看历史、兴趣和行为，为他们提供个性化的内容推荐。观众可以收到与自己最感兴趣的运动员或比赛项目相关的提醒和高光回放，从而更专注于自己喜爱的赛事部分，增强观赛的沉浸感。
- 实时数据分析：为比赛解读注入智慧
AI技术在巴黎奥运会上还通过实时数据分析，显著提升了观众的观赛体验。观众不仅能够看到比赛实时数据，还可以获得基于AI分析的战术解读和运动员表现评估。这些智能化的分析让观赛不仅是视觉上的享受，更成为了一场探索智慧的体验。
- AI赋能赛事管理：安全监控与智能解说的双重创新
巴黎2024奥运会不仅是全球顶级体育赛事的舞台，也已经成为AI技术的重要试验场。AI技术已经通过自动化的数据分析、智能解说和实时监控，显著提升了赛事的组织效率和观众体验。例如，AI技术被用于监控比赛场馆的安全状况，实时检测人群流动和异常行为，从而确保比赛的顺利进行。这种技术的应用，不仅提高了赛事的安全性，也使得赛事组织者能够更高效地管理和分配资源。

AI还被用于赛事的智能解说，通过AI驱动的解说系统，观众在比赛进行中可以获得更多的背景信息和专业分析。这种智能解说不仅提高了比赛的可理解性，还让观众能够更深入地参与到赛事中。此外，AI还帮助赛事组织者优化比赛日程和场馆安排，确保每一场比赛都能够顺利进行。

2， AI技术在奥运会的未来展望
- 8K直播与沉浸式观看体验
在未来的奥运会上，AI有望支持8K直播技术。通过这项技术，全球观众有望以超高分辨率观看比赛，体验到极其清晰和细腻的画面质量。这种清晰度的提升将使观众仿佛置身于比赛现场，享受更加真实的观赛体验。此外，AI技术预计将确保直播过程中的低延迟，从而进一步提升观看的流畅度和连贯性。

8K直播不仅可能提高观看的视觉效果，还将为观众提供更广阔的视角和更多的细节展示。无论是田径场上的每一个冲刺，还是游泳池中的每一个划水动作，观众都可能通过8K直播清晰地捕捉到。这种沉浸式的观看体验，预计将极大地增强观众的投入感和参与度，使得奥运会不仅仅是一场体育盛事，更是一场视觉和情感的盛宴。
- 虚拟现实（VR）与增强现实（AR）：沉浸式观赛的新维度
虚拟现实（VR）：在未来的奥运会中，虚拟现实技术有望为全球观众带来前所未有的沉浸式观赛体验。通过VR头戴设备，观众可以身临其境地“进入”奥运赛场，仿佛置身于比赛现场的座位上，感受运动员的速度与力量。无论是田径赛场的激情瞬间，还是游泳比赛的水花四溅，VR将让观众不仅能看到比赛，还能感受到赛场的氛围与热烈的情感。这种技术，尤其对那些无法亲临现场的观众来说，将是一场革命性的观赛体验。

增强现实（AR）：AR眼镜可能成为未来观赛的重要工具。观众佩戴AR眼镜后，能够在观看比赛的同时看到实时叠加在视野中的数据和信息。例如，在田径比赛中，观众可以通过AR眼镜看到运动员的实时速度、心率、距离和排名情况，所有信息都清晰地显示在他们的视野中，而不会干扰对比赛的观看。这不仅将增强比赛的透明度，也让观众能够更直观地理解比赛的进展和运动员的表现。此外，AR还可以用于展示历史数据、运动员简介，甚至是回放精彩瞬间，为观众带来更加全面的观赛体验。

这种VR和AR技术的结合，将有望在未来的奥运会上开辟全新的观赛维度，将体育赛事带入一个科技感更强的新时代。

AI正在全面进入我们的生活，在各个领域都展露出它令人惊叹的成绩。在未来，AI将如何影响体育，如何影响奥运赛事呢，让我们继续期待吧！

_{本文图像提供文本描述，并通过Dalle-3生成。版权所有 © 科技便利工作生活 2024。未经授权不得转载或复制。}
2024年 8月 10日
「保姆级教程」从0-1创建一个虚拟角色，完全免费
上一期文章，我们分享了隐藏在Canva（可画）网站里的三款虚拟数字人应用：在Canva中隐藏的【3】款虚拟数字人应用！（点击蓝字可跳转阅读）

不过，以上的三款应用更适合的对象是一个已经拥有了自己虚拟角色形象的人使用，因为无论是D-ID AI Presenter 还是 Heygen AI Avatars（目前Avatars by NerioAI只能选择预设的虚拟人形象），主要功能都是帮你实现——「让人物说话」，可以说是比较后面甚至可能是最后一步——旁白配音的阶段了。

那么对于还没有拥有一个虚拟角色形象的人来说，现在最重要的是什么呢？

没错，那就是——去画出你的虚拟形象！

不过，不要被「画」吓退，因为这里不需要你具有任何绘画天赋，也不需要你使用任何过去听说的那些专业人士才会使用的复杂的绘画软件。

因为，这一切，我们都可以交给——AI。

最近，蒙面人似乎很火，许多不愿露脸的内容创作者也选择用这种蒙面人的形象为自己增加神秘感，所以本次我会以蒙面人的形象来作为案例。

如果你也想创作出上面我创作的虚拟角色，那么请继续阅读下面的内容。

本次创作共分为四大步骤，我会一一为你实操讲解。

步骤一：通过文字生成人物图片

首先，有一款完全可以免费使用的工具应用你必须知道：
leonardo.ai ：https://app.leonardo.ai/

还有一款需要订阅付费才能使用的工具：
Midjourney ：https://discord.com/invite/midjourney

在图像生成领域，Leonardo.ai 和 Midjourney 都占据重要地位。Leonardo.ai 强调多样化和用户友好性，适合广泛的用户群体，而 Midjourney 以其高质量和创意性图像生成能力著称，特别适合需要高度艺术性和详细图像的用户。两者在生图方面都有各自的优势和应用场景，用户可以根据自己的需求选择合适的平台。接下去，我们在这两个生图工具里分别进行创作，下面是它们需要的提示词：

leonardo.ai：Anime friendly looking female business character is wearing a face mask, hoodie and sunglasses. She is placed in the center of the image, and looking into the camera. She is sitting behind her laptop in her studio, arms on her desk. It is night. The room is minimalistic. She is front facing to the camera, looking straight and centered, central portrait, sitting straight, front view, centered looking straight, upright. The background is a huge window. The overall ambiance of the image should convey a connection to minimalism, flat illustration, bold line, minimalism, simplified, gouache illustration.

Midjourney:
Anime friendly looking female business character is wearing a face mask, hoodie and sunglasses. She is sitting behind her laptop in her studio, arms on her desk. It is night. The room is minimalistic. She is front facing to the camera, looking straight and centered, central portrait, sitting straight, front view, centered looking straight. The overall ambiance of the image should convey a connection to minimalism, flat illustration, bold line, minimalism, simplified, gouache illustration. 8k resolution –ar 16:9

对英文感到头疼的朋友，可以使用翻译软件进行中文翻译。上面的提示词仅作为一个参考，你可以替换成任何你想替换的内容。比如，参考里我们使用的是女性角色，如果你想换成男性角色，则只需要把female替换成male, 把she替换成he，把her替换成his。同理，如果大家不想要参考里面的Anime （动漫）风格，你还可以替换成下面我为你详细整理出来的其他人物风格——即：将Anime替换成下面10组英文词中任意一个。
- 写实风格（Realism）：逼真地描绘人物，注重细节和现实生活中的特征。
- 卡通风格（Cartoon）：简洁的线条和夸张的特征，通常用于轻松、幽默的场合。
- 像素风格（Pixel Art）：使用像素点来绘制图像，具有复古的电子游戏风格。
- 漫画风格（Comic）：类似于西方漫画中的人物形象，线条明确，常带有浓重的阴影。
- 奇幻风格（Fantasy）：融合奇幻元素，常见于角色扮演游戏和幻想小说插图。
- 低多边形风格（Low Poly）：使用几何形状和简化的设计，常用于3D建模和现代艺术。
- 插画风格（Illustrative）：艺术化的描绘，带有独特的艺术笔触和风格化的特征。
- 超现实主义（Surrealism）：融合梦幻与现实元素，带有超现实的艺术表现。
- 赛博朋克风格（Cyberpunk）：带有未来科技和反乌托邦元素，常见于科幻作品。
- 古典风格（Classical）：模仿古代艺术风格，如文艺复兴时期的绘画。
同样的，背景和画面氛围也都可以替换成你需要的。

好了，接下来，我们看一下，在这两款应用里通过上面的描述词，我们会生成什么样的虚拟形象图片吧！

1， leonardo.ai

_{leonardo.ai的用户每天有150个积分（左上角可以看到），每次创建一组图会使用24积分。}

点击画面中间这个圆圈，Image Creation，然后输入我们刚刚列出来的提示词。

在左侧区域选择风格，我个人推荐在「Prese Style」的区域选择的风格——Minimalist，或者 Illustration，会比较接近我们提示词里需要的感觉。

最后点击Generate等待图片生成。

如果不喜欢，可以再反复地点击Generate，也可以根据出来的画面去对之前的提示词进行调整，直到最后出来你喜欢的，然后保存下来。

2，Midjourney

进入Midjourney，在下面的描述框输入“/”

然后直接选择跳出来的图标”/imagine”

然后在prompt后面输入我们前面给出的提示词——

最后点击回车键，等待生图。

如果不够喜欢，就点击♻️再等待新的图片，或者重新输入提示词生图。

如果有喜欢的图，想要下载，比如第一张图，就点击U1: 意味着单独为你呈现第一张图。以此类推。

如果想要看一下基于第一张图的变化，则选择V1，其他位置的图片同理。

下载前记得点开图片左下角的“Open in Browser”。

以确保图片是最高画质，然后再保存图片。

但是可能在你的实际操作中会发现比较难出现背景和人物同时都喜欢的情况，所以这个时候建议大家可以单独创作背景图——

关于背景图，两个生图工具的提示词分别是：

Leonardo: It is night. The studio room is minimalistic with neon lights and a huge window in the background. The style should remain similar to modern graphic novels or concept art with high fidelity to real-world textures and proportions, conveying a sense of depth and realism.

Midjourney:
It is night. The studio room is minimalistic, neon with a huge window in the background. The image is centered, and straight. The overall ambiance of the image should convey a connection to minimalism, flat illustration, bold line, minimalism, simplified, gouache illustration. –ar 16:9

和上面生成人物的操作步骤一样，最后选择你喜欢的背景图下载保存。

好，现在我们有了自己喜欢的人物和背景图，那么接下来就是将二者融合在一起就好了。不过在融合前，我们还需要对人物原来的背景进行移除。所以来到了我们的第二个步骤。

步骤二：移除人物背景图

这里我推荐使用：
https://www.remove.bg/

点击Upload Image，上传我们前面选择的人物图片。

（你也可以把网站语音翻译成中文，这样更方便理解。）

可以看到，我们还没有做任何操作，背景就在一阵“星星闪烁”后直接被移除啦。但是很多时候，可能会自动把你想要保留的部分也移除，那么这个时候我们需要用到恢复功能。点击画面右侧的选项——Erase/Restore（擦除/恢复）

当你点击恢复的时候，就能看到消失的背景又出现了。

你会在画面里看到一个圆圈，用这个圆圈去涂抹你想恢复的部分。比如我想恢复桌子右边这个笔盒和左边的桌面部分。那么直接用圆圈去涂抹你想要恢复的部分。当然，如果涂抹错误，你也可以选择“擦除” 去涂抹你想擦除的部分。

保存移除背景后的人物图。准备和前面我们单独生成的背景图进行融合。

步骤三：融合人物图和背景图

打开Canva（可画），选择16:9的画布。上传人物图和背景图。调整到合适的位置，还可以对画面的色彩进行调试，使其看起来更加融合。

到这里，我们可以发现，桌子很显然是不够完美的，那么就到了我们的步骤四，我想称这一步骤为–装修。
不过在开始步骤四之前记得保存图片。

步骤四：装修环境

这里推荐一个很好用的网站：
https://firefly.adobe.com/

登陆后我们找到：生成式填充

点击进入，直接上传我们在Canva融合好的图片。

点击最下方的添加”，会出现一个圆圈，就是你的画笔。把你需要延伸的桌子部分的空间涂满。

涂满后，我们在提示词那里输入英文的“桌子”——desk，点击“生成”。

选择你喜欢的桌子，如果没有喜欢的，点击“更多”会继续生成。

用这样的方法，你还可以生成台灯、麦克风，或者任何你想生成的家具或者别的东西。请尽情装修！

好了，按照上面的方法，我在桌面添加了台灯，麦克风，以及装满玫瑰的花瓶，下面就是我装修结束后的图啦，整个过程非常丝滑。

最后，对图片进行下载。那么到这里，我们就算完成了我们虚拟人物形象的完整创作了！

当然，你可以让你的虚拟形象蒙面，也可以不蒙面，不管是哪一种方式，我们后续都可以生成相应的“说话”的动态效果。

或许你也很有兴趣创建这样一个虚拟角色作为自己社交媒体的形象，那么，请开始这一切有趣体验的第一步吧——去创建你的专属角色！

希望今天的创作教程能够帮助到你。

创作过程中，如果你有任何疑问，欢迎留言。
2024年 8月 5日
OpenAI最新发布：高级语音模式开始推出！对话体验全面升级

7月31日凌晨，OpenAI再次为我们带来了令人振奋的消息：OpenAI正式推出了最新的GPT-4o高级语音模式！这项新发布的功能引起了广泛的关注和热议。GPT-4o不仅在自然语言处理的精度上取得了显著的提升，还为用户提供了许多令人惊叹的新功能。实时语音模型，全面升级的对话体验，视觉识别与互动，人工智能朝着「人化」又迈进了一步。

此次升级可谓是一次全方位的革新，为用户提供了更加自然流畅的互动体验。高级语音模式能够更准确地理解和响应用户的需求，无论是在信息查询、任务执行还是日常聊天中，都展现出强大的能力。更重要的是，GPT-4o的多语言支持功能使其能够更广泛地应用于全球不同语言和文化背景的用户中，这极大地拓宽了其应用场景。

这次更新不仅仅是技术上的进步，更体现了OpenAI致力于提高用户体验的承诺。新功能的加入使得与AI的互动更加人性化和贴近生活，用户在使用过程中能感受到更高的舒适度和参与感。那么，这个最新的高级语音模式究竟有多强大呢？接下来，让我们来一探究竟吧～

GPT-4o实时语音模型：全面升级的对话体验

1，中文实时对话

OpenAI 官方发布信息说，为了保护人们的隐私，训练模型只用四种预设声音说话，这其中包括了中文。

GPT-4o在中文实时对话中的表现非常出色。比如它可以按照用户的需求用带有中国口音的中文去讲一个故事，准确的反映和表现，为用户带来顺畅自然的交互体验。

2. 赛事解说员

GPT-4o具备生动的赛事解说能力，它模仿专业解说员的语气和风格，使得整个比赛过程充满紧张和刺激的气氛。如果你是体育迷，这个功能一定会让你感到兴奋。

3. 外语教练

对于语言学习者，GPT-4o可以充当你的私人外语教练。它能够准确地指出你的一句话里哪一个单词的哪一个音不够准确，并提供纠正，整个过程像一位充满亲和力且耐心的最佳外语教练。

4. 模仿动物叫声

GPT-4o还具备模仿各种动物叫声的能力。它甚至可以表现出人学猫叫，猫自己的叫声，以及多只猫一起叫，这项功能趣味十足。

音乐创作爱好者会对GPT-4o的Rap和口技功能感到惊喜。它可以根据你的要求创作即兴Rap歌词，展示各种口技技巧。这为用户提供了一个探索和展示自己音乐才华的独特平台。对于音乐爱好者而言，将拥有一个很棒的音乐伙伴。

5. 创作Rap和口技

音乐创作爱好者会对GPT-4o的Rap和口技功能感到惊喜。它可以根据你的要求创作即兴Rap歌词，展示各种口技技巧。这为用户提供了一个探索和展示自己音乐才华的独特平台。对于音乐爱好者而言，将拥有一个很棒的音乐伙伴。

6. 粤语笑话

不仅限于普通话，GPT-4o还支持粤语对话，甚至能讲粤语笑话。系统对粤语的语言特点和幽默风格有深入理解，能够用地道的方式呈现笑话。这对粤语用户来说是一个很大的亮点，也展示了GPT-4o在多语言和多文化环境中的灵活性。

视觉识别与互动

1. 视觉识别对话

GPT-4o结合了先进的视觉识别技术，能够识别用户展示的物体，并提供相关信息或进行对话。就像有一个朋友就站在你身边，可以准确地向你反应你周边的环境，而不需要你更多的描述。这种互动会非常有陪伴感和参与感。

2. 视觉识别翻译

另一项强大的功能是视觉识别翻译。用户只需展示带有文字的物体，、GPT-4o就能实时识别并翻译这些文字。这对旅行者、语言学习者或在多语言环境中工作的人来说会非常便利。

目前，GPT-4o的实时语音模型及其丰富的功能正在灰度测试阶段。我们期待着在未来向更多用户开放这些功能。最后，我们一起通过下面的视频来感受一下GPT-4o高级语音模式的精彩表现吧！

2024年 8月 2日
在Canva中隐藏的【3】款虚拟数字人应用！
在现代数字世界，虚拟数字人正迅速成为人们的新宠。通过AI技术打造的虚拟数字人，不仅让你能在不露脸的情况下与观众互动，还为你增添了独特的个性和神秘感。这些虚拟数字人在销售、营销还是教育领域，都能通过生动的对话与用户互动，为品牌和个人带来全新的互动方式。就像为自己创造了一个卓越的员工，你只需要“调教”这些虚拟数字人，就能轻松实现「一人团队」。现在正是拥抱这些新技术的最佳时机！

今天要介绍的虚拟数字人应用，主要是通过一个叫做Canva的网站。这个网站的中文名字叫「可画」，相信很多读者朋友并不会陌生。

在Canva中，用户可以轻松利用D-ID AI Presenter、Heygen AI Avatars和Avatars by NerioAI这三款AI工具，直接在平台内生成虚拟主持人视频和个性化虚拟头像。这些工具与Canva的无缝集成使得用户无需在不同应用和网站间切换，就能在Canva中完成所有操作。通过Canva的设计功能，用户可以为生成的视频和虚拟形象添加文字、背景和动画，确保作品风格和品牌一致性。和Canva的集成可以让用户更方便地实现演示、教育、营销和社交媒体内容等多种场景的内容创作。接下来，我们来简单介绍一下三款虚拟数字人应用的操作步骤——

D-ID AI Presenter
- 选择虚拟人形象：进入Apps（应用程序），然后找到Desigh essentials（人工智能），选择D-ID AI Presenter，上传一张图片作为虚拟角色的形象。
- 添加脚本：在文本框中输入文字内容或上传语音脚本。
- 设置语言和语音：选择语言和语音风格。
- 预览和生成：点击“预览”查看效果，满意后生成视频。
Heygen AI Avatars
- 连接账号：进入Apps（应用程序），然后找到Desigh essentials（人工智能），选择Heygen AI Avatars，连接到Heygen账号。
- 选择或上传头像：选择预设的虚拟头像或上传自己的照片。
- 输入文本：输入虚拟人要说的话。
- 选择语音：选择语音类型和风格。
- 生成视频：点击“生成”，等待视频完成后可下载或在Canva中继续编辑。
Avatars by NerioAI
- 选择虚拟人形象：进入Apps（应用程序），然后找到Desigh essentials（人工智能），选择Avatars by NerioAI，选择一个预设的虚拟人形象。
- 输入文字：在文本框中输入虚拟人要表达的内容。
- 设置语言和声音：选择语言和声音类型。
- 生成视频：点击“生成视频”，等待视频完成。用户可以在Canva中进一步编辑和美化视频。
说完Canva里的三款AI虚拟数字人应用，接下来我们来看看Canva里的AI文字功能——Magic Write。

为了让你的虚拟数字人配合更棒的文案或者脚本，你需要知道Magic Write。尤其是当你感到缺乏灵感时，这个工具能为你提供创意性的文字建议，帮助你构思和完善内容。

Magic Write是Canva中的 AI 写作工具，旨在帮助用户生成文本内容、文案和创意。Canva的Magic Write功能使用了与ChatGPT相似的技术。

Canva的Magic Write是基于类似于 ChatGPT的技术，但它可能经过了特定的优化和定制，以便更好地集成到Canva的设计和创作环境中。

因此，在设计方面，Magic Write 或许将会在同类文字AI工具领域中展现出更明显的优势。

Canva 还提供了一键去除背景的魔法功能，轻松去掉虚拟数字人的原始背景，你可以再选择替换成Canva里的背景动图，实现更具视觉冲击力的效果，为你的虚拟数字人创建更适合的环境。

除了这些，Canva里还有更多的AI工具值得去探索，这些功能可以相辅相成，共同协助你去创建你的虚拟数字人。事实上，你不仅是在创造一个角色，更是在搭建和实现“一个人的团队”，这是一件很酷的事。

欢迎留言分享你的「虚拟数字人」的故事～
2024年 8月 2日