香港股票配资公司 OpenAI GPT-4o推出图像生成功能,攻克“生成图像中的文字”难题
图像生成领域传来了新进展香港股票配资公司,OpenAI在攻克“生成图像中的文字”方面的难题。北京时间3月26日凌晨,OpenAI进行了直播,对GTP-4o和Sora进行更新,在ChatGPT和Sora中推出GPT-4o的图像生成功能。OpenAI此次强调了新功能在精准理解文本描述、准确生成文本方面的优势。
据OpenAI介绍,GPT-4o图像生成功能擅长准确呈现文本,并精准遵循提示词,该功能还会将GPT-4o的知识库和聊天上下文作为灵感来源,这有助于使用者与图像生成工具更有效地沟通并提高生成图像的质量。该功能供ChatGPT Plus、Pro、Team和免费用户使用,并计划随后向企业、教育和API使用者推出。
在OpenAI的示例中,要求大模型生成一名女子在一个俯瞰海湾大桥的房间里用笔在白板上写字,衣服上印有OpenAI字样,白板映着摄影师的身影,并描述了白板上所写的文字。GPT-4o生成的图像都体现了以上要求。随后,OpenAI要求摄影师走到镜头前与女子击掌,GPT-4o也呈现了这一画面,且白板上的字不会变得凌乱,女子的身形和发型也与前一张图像呈现的背影一致。
在其他示例中,OpenAI要求大模型生成上世纪中叶一个家庭中冰箱上贴着的诗歌短句,并要求画面中的人手拿着特定的几个词,GPT-4o可以精准还原。GPT-4o还能生成漫画,但需要人准确地描述画面中的情节。OpenAI还展示了这个图像生成功能在科学实验中的用途,该功能可以生成牛顿棱镜实验的示意图。此外,OpenAI还展示了该图像生成功能在生成路牌、菜单、游戏画面时的效果,以及生成鸡尾酒配方、天气信息图像时,大模型生成的专业配方和天气文本描述。
就如何训练GPT-4o图像生成功能,OpenAI解释,OpenAI使用了网络上的图像和文本训练模型,让模型学习图像与文字、图像与图像之间的关系,使模型具有视觉流畅性,生成的图片是有用的、具备上下文连贯性的。
就GPT-4o图像生成功能的特点,OpenAI还表示,用户可以通过自然对话与大模型交流,要求大模型改进图像,在这个过程中图像中的人物等要素会保持一致性。使用者与大模型的交流也更顺畅,可以同时要求大模型处理10到20个不同的对象,以便图像中各要素呈现出相关性。OpenAI对比其他图像生成系统时称,其他系统只能同时处理5到8个对象。
不过,OpenAI也指出,GPT-4o图像生成功能也具备一些限制,例如存在幻觉、难以呈现太多依赖知识库的图像要素(例如元素周期表)、图表准确性不足、呈现非拉丁语言时可能容易出现幻觉、要求修改图像中的错别字时难以精准编辑。
生成图像中的文字,此前是图像生成领域的一个难题。国内,去年豆包升级文生图能力,支持一键生成指定文本。今年3月,智谱AI发布了首个支持生成汉字的开源文生图模型CogView4。不过,记者试用发现,相关模型生成文字的能力还不太稳定。
3月26日,记者使用豆包APP和智谱清言APP生成图像,其中智谱清言用的模型是CogView4。记者输入“生成一张图片,一个人在看墙上歌手演唱会的海报,海报用中文写着演唱会日期、演唱会主题描述、歌曲名称”。智谱清言生成的海报中出现不少乱码。豆包生成的中文文字准确,但理解有所偏差,呈现的是“演唱会日期”“演唱会主题”这些字样。
随后记者将提示词改为“一个人在看墙上歌手演唱会的海报,海报用中文写着演唱会日期为2025年3月29日、演唱会主题为星空旅行、歌曲名称《太空翱翔》”,豆包呈现出了正确的日期和“星空旅行”字样,仍有一些字是乱码,智谱清言也生成了一些乱码。
更新GPT-4o的图像生成功能之后,OpenAI更大的产品更新将是推出GPT-5。今年2月,OpenAI首席执行官山姆·奥尔特曼表示,OpenAI将会在ChatGPT和API服务中搭载新模型GPT-5,GPT-5将集成公司多项技术,包括推理模型o3的技术,GPT-5可能会在未来几个月内推出。
举报 第一财经广告合作,请点击这里此内容为第一财经原创,著作权归第一财经所有。未经第一财经书面授权,不得以任何方式加以使用,包括转载、摘编、复制或建立镜像。第一财经保留追究侵权者法律责任的权利。如需获得授权请联系第一财经版权部:banquan@yicai.com 文章作者
郑栩彤
相关阅读
OpenAI宣布GPT-4.5正式面向所有ChatGPT Plus用户开放;并拟推月费14.5万元的AI Agent。
56 03-06 20:53
DeepSeek首次公布模型推理系统优化细节,披露理论利润率达545%;腾讯元宝上线电脑客户端版本;OpenAI拟将Sora整合进ChatGPT。
58 03-01 20:50
国务院国资委部署深化中央企业“AI+”专项行动;下周起,DeepSeek将开源5个代码库;消息称OpenAI GPT-4.5最快有望下周面世。
154 02-21 20:53
对于DeepSeek的现象级热度,梁汝波如去年一般反思团队的反应速度问题。
501 02-14 22:19
马斯克:如果OpenAI维持非营利,将撤回竞购
53 02-13 18:44 一财最热 点击关闭