在 DevDay 2024 上,OpenAI 更注重内容而不是奇观,推出了四项更新,让开发人员更容易获得和负担得起 AI。 Here’s what’s new: 以下是新功能: 实时 API:新推出的实时 API 允许开发人员访问六种 AI 语音,这些语音旨在无缝集成到应用程序中。与 ChatGPT 中的语音不同,这些语音可以在各种情况下进行逼真的对话,包括旅行计划和基于电话的订购系统,价格约为 18 美元/小时。该 API 支持实时响应,增强了各种应用程序中的用户体验,尽管开发人员负责披露 AI 生成语音的使用情况。 视觉微调 API:Vision Fine-Tuning API 允许开发人员通过将图像数据与文本相结合来支持 GPT-4o,从而显着提高模型的视觉理解能力。此功能支持高级视觉搜索、自动驾驶汽车的对象检测和精确的医学图像分析,所有这些都可以通过 100 张图像实现。OpenAI 通过授予开发人员对数据所有权和使用的完全控制权来保持透明度,并辅以自动安全评估以确保合规性。 API 中的提示缓存:提示缓存功能使开发人员能够通过重用先前提示中的输入令牌来节省成本并减少延迟。此功能对于代码编辑和多轮次对话特别有用,可节省高达 50% 的处理时间。该功能会自动应用于最新的 GPT-4o 和 GPT-4o 迷你版本,在确保满足隐私承诺的同时,激活超过 1,024 个令牌的提示。 API 中的模型蒸馏:OpenAI 的模型蒸馏允许开发人员使用 GPT-4o 和 o1-preview 等高级模型的输出来优化具有成本效益的模型。这种集成过程简化了高性能模型的创建,例如 GPT-4o mini,而无需多个工具。主要功能包括用于自动生成数据集的 Stored Completions 和用于性能评估的 Evals。模型蒸馏现已推出,每天为 GPT-4o mini 提供 200 万个免费训练代币,为 GPT-4o 提供 100 万个免费训练代币,直到 10 月 31 日,之后将适用标准微调定价。 另外,一个新的提示生成器? OpenAI has a leaked prompt for generating system prompts on the playground, aimed at improving clarity and effectiveness. 此外,Ope
标签: aiinfo
Runway 推出了“百部电影基金” ,拨款 500 万美元现金和额外服务积分,支持最多 100 部利用其生成式 AI 视频技术的电影。该计划旨在通过为各种格式(包括故事片、短片、纪录片和音乐视频)提供资助来刺激新兴的人工智能电影生态系统,电影制作人有资格获得财务支持和高达 200 万美元的服务积分,从而可能将总资金增加到 1000 万美元。 Runway 的创意主管 Jamie Umpherson 强调,每个项目都将根据其具体的制作需求进行评估。值得注意的是,《天桥》不会声称拥有这些电影的所有权,但需要每两周更新一次制作内容。 有鉴于此,行业资深人士迈克尔·布莱克指出,广撒网、资助众多项目可能是明智之举。他将这种方法描述为“喷涂和祈祷”,并建议在这 100 部影片中,至少有一两部可以有效地展示人工智能生成视频的潜力。
Meta 推出了“Imagine Yourself”,这是一种 AI 模型,能够从一张参考照片生成各种个性化图像,而无需额外的训练。该模型可以通过处理参考图像以及随附的文本说明来创建不同姿势、样式和设置的多个个人图像。 与需要对每个人进行再训练的传统模型不同,“Imagine Yourself”使用合成训练对来增强学习,并由先进的架构提供支持,该架构具有三个并行文本处理模块和一个可训练的图像处理模块。 虽然该模型在执行复杂指令方面表现出卓越的性能,但与一些竞争模型相比,它在保持身份方面仍然面临挑战。
在一篇罕见的博客文章中,OpenAI 首席执行官 Sam Altman 阐述了他对即将到来的“智能时代”的愿景,他断言深度学习的能力能够解决复杂的全球挑战,例如气候变化和太空殖民。他预测超级智能将在“几千天内”出现,这比大多数专家预期的要早得多。 Altman 断言,AI 的进步将依赖于增强的计算能力和数据可用性,为个人 AI 团队和每个人的虚拟导师铺平道路。虽然他承认潜在的工作岗位流失和资源差距,但他相信人工智能的整体影响将产生深远的好处。 Altman的帖子被定位为个人观点,而不是 OpenAI 的官方声明,与该公司的筹款工作相吻合,目标是估值 1500 亿美元。他警告说,如果没有足够的基础设施,人工智能可能会成为主要为富人提供的资源。
OpenAI 推出高级语音模式,具有更多声音和新外观
OpenAI 已将 ChatGPT 的高级语音模式扩展到更多付费用户,并将其推广到 Plus 和 Teams 级别的用户。此更新带来了更时尚的设计,以蓝色动画球体突出显示,并引入了五种新声音 – Arbor、Maple、Sol、Spruce 和 Vale,以提升体验。 但是,该版本缺少早期演示中的视频和屏幕共享功能。从好的方面来说,它现在可以更流畅地处理重音,并与 ChatGPT 的自定义指令和内存无缝协作,提供更量身定制的体验。 Note: If you are a ChatGPT Plus user and don’t have access yet, try uninstalling the app and re-installing it.
Ive 在 2 月份以 $60M 的价格购买了“The Little Fox Theater” 前 Apple 设计主管 Jony Ive 正在与 OpenAI 合作开发一种创新的 AI 设备,该设备优先考虑语音交互而不是传统的屏幕界面。尽管细节有限,但 Ive 已确认在旧金山收购一个 32,000 平方英尺的办公空间,他的设计公司 LoveFrom 将在那里领导该项目。 该计划吸引了一个小团队,包括前 Apple 设计师,他们专注于利用生成式 AI 完成摘要新闻和预订旅行等任务。OpenAI 的目标是从传统的聊天系统过渡到更具代理性的 AI 解决方案,其灵感来自电影 《她》中的 AI 助手 Samantha。初始资金来自 Ive 和 Laurene Powell Jobs 的 Emerson Collective,可能计划从软银等投资者那里筹集高达 10 亿美元的资金,从而在竞争激烈的 AI 市场中战略性地定位 OpenAI。
认识重新定义服务机器人的半人形机器人
Pudu Robotics 推出了 PUDU D7,这是一款“半人形”机器人,旨在处理食品行业的服务、分拣和储存任务。该机器人高 165 厘米,重 45 公斤,具有 30 个自由度,通过额外的手部附件可以扩展到 50 个自由度。它可以举起重达 10 公斤的重量,一次充电可运行 8 小时,相当于一个工作日的长度。这款最新版本专为服务和工业环境量身定制,反映了 Pudu 对其机器人阵容的持续扩展。 中国公司 Pudu Robotics 刚刚宣布推出其第一代“半人形机器人”PUDU D7,用于服务和工业环境。 身高:165 厘米,体重:45 公斤,30 自由度可通过手动附件扩展到 50,举起 10 公斤,一次充电可运行 8 小时。
如果您是一位需要更多时间、金钱、知识和人脉来加速成长的创作者,那么您需要 Spotter 平台。 Spotter 可帮助您: Discover new concepts that resonate with your audience and inspire reliably high-performing videos through powerful data-driven insights from the Outlier tool 通过 Outlier 工具提供的强大数据驱动型洞察,发现能引起受众共鸣的新概念,并激发可靠的高性能视频 Generate endless personalized video concepts within minutes using Spotter Studio’s AI-powered Brainstorm tool 使用 Spotter Studio 的 AI 驱动的 Brainstorm 工具,在几分钟内生成无穷无尽的个性化视频概念 Plan ahead with the integrated Workflow tool 使用集成的 Workflow 工具提前规划 “We see so much promise in these tools to help us save time and increase our productivity. Our team is so thankful for these.” -Dude Perfect “我们看到这些工具有很多希望可以帮助我们节省时间并提高我们的生产力。我们的团队非常感谢这些。-Dude Perfect 准备好升级您的内容创作了吗?
Adobe 正在推出Firefly Video Model ,这是一款人工智能驱动的视频编辑工具,将于今年晚些时候推出有限的测试版。该工具是 Adobe Firefly 套件的一部分,标志着该公司迈出了人工智能驱动视频编辑的第一步。它允许用户根据文本或图像提示生成五秒的视频剪辑,并具有自定义摄像机角度、平移和缩放效果的功能。 Adobe 声称,与 Runway 和 Pika Labs 等竞争对手相比,该工具提供了卓越的提示准确性和性能。 Firefly 视频模型将专门针对公共和许可内容进行训练,避免使用 Adobe 客户数据。除此之外,Adobe 还将在 Premiere Pro 中引入 Generative Extend,该功能可通过生成两秒插入来扩展剪辑。爱好者可以加入测试版访问的等待名单。
Suno 推出新的“翻唱”功能,重新构想您喜爱的音乐
Suno 的新功能 Covers 现已处于早期测试阶段,允许用户通过将音乐转变为不同的风格来重新想象他们的音乐,同时保持原始旋律。该工具支持各种音频输入,例如录音和乐器,使用户能够尝试新的流派并向乐器曲目添加歌词。 要创建翻唱,用户可以从“库”或“创建”页面中选择一首歌曲,选择“翻唱歌曲”,然后选择新的音乐风格。该功能将自动调整原始歌词以适应所选风格,但用户可以根据需要修改歌词。此功能可供 Pro/Premier 订阅者使用,初始分配 100 个免费封面。 Suno 在此测试阶段征求反馈意见,以提高该工具的性能。