什么是结缔组织病| 阴道流黄水是什么病| power是什么牌子| 犄角旮旯是什么意思| 心悸失眠是什么症状| 夏天白鸽煲什么汤最好| 闲鱼转卖什么意思| 不可漂白是什么意思| 博字五行属什么| 52岁属什么| 乙肝三项检查什么| 什么是幂| 化验痰可以检查出什么| 鱼鳔是什么东西| 什么东西越洗越脏答案| 海东青是什么| 油腔滑调指什么生肖| 飞蚊症用什么滴眼液| 转氨酶高有什么症状| 今年78岁属什么生肖| 麻蛇是什么蛇| 四月十七是什么星座| kai是什么意思| biubiubiu是什么意思| 痛风急性发作期吃什么药| 平均红细胞体积偏低是什么原因| 收放自如是什么意思| 背上长痘痘是什么原因| 血糖高的人早餐吃什么好| 什么的枣子| 什么是煞气| 4月29日是什么星座| 已是什么意思| 反应性细胞改变炎症是什么意思| 为什么天空是蓝色的| 美国是什么洲| 痔疮用什么药膏| 瞳孔扩散意味着什么| 上火了吃什么食物降火| 三个龙念什么| 一直想大便是什么原因| 兑水是什么意思| 慈悲是什么意思| 奇花初胎矞矞皇皇是什么意思| 头发发黄是什么原因造成的| 什么是胆囊炎| 以身相许什么意思| ipf是什么病| 2007是什么年| 白细胞计数偏高是什么意思| 手足口疫苗什么时候打| 玉什么样的好| 朱迅和朱军是什么关系| 吃什么补性功能最快| 洋芋是什么东西| 治疗幽门螺旋杆菌的四联药是什么| 孕妇可以吃什么鱼| HP是什么| 专技十三级是什么意思| 皮肤镜能检查出什么| 心脑供血不足吃什么药效果最好| 梦见婆婆是什么意思| 阴唇为什么会长痘痘| 5月20日什么星座| 腰椎间盘突出压迫神经吃什么药| 持之以恒是什么意思| 小便分叉是什么原因男| 利可君片是什么药| 胃痛吃什么好| aojo眼镜什么档次| 中性粒细胞百分比偏低什么意思| 罹患是什么意思| pra是什么意思| 什么是抗性淀粉| 白头翁是什么生肖| 想的偏旁是什么| 微针是什么美容项目| 什么是单克隆抗体| 阴茎皮开裂是什么原因| 什么败走华容道不出所料| 正比和反比是什么意思| 大腿为什么会长妊娠纹| 手臂痛什么原因| 七七年属什么生肖| 烛光晚餐是什么意思| 狰狞什么意思| 口疮反复发作什么原因| 疾苦的疾是什么意思| 广州有什么特产| 广东是什么气候| 流鼻涕咳嗽吃什么药| 再接再励是什么意思| 来龙去脉是什么意思| 不超过是什么意思| 一天中什么时候最热| 血热是什么意思| 1958年是什么年| 晚上八点多是什么时辰| 长针眼是什么原因| 什么是低钠盐| 宫保鸡丁宫保是指什么| 最长的河流是什么河| 为什么喝完酒头疼| 布施什么意思| plt是什么意思| 高危hpv有什么症状| 青蛙靠什么呼吸| 左手虎口有痣代表什么| 高压氧是什么| 肾阴虚有什么症状| 丝状疣挂什么科| 做梦掉牙齿是什么意思周公解梦| 主人杯是什么意思| 舌炎吃什么药效果最好| 13楼五行属什么| 我是什么星座| 宫颈囊肿是什么意思| 月亮是什么意思| 扎西德勒什么意思| 套作是什么意思| 宦游人是什么意思| pray是什么意思| 油粘米是什么米| 月底是什么时候| 旱魃是什么| 半夜腿抽筋是什么原因| 腺病毒吃什么药| 为什么老是咳嗽| 尿路感染看什么科室| 隔离霜是干什么用的| 每次上大便都出血是什么原因| sga是什么意思| 克是什么单位| 114514是什么梗| 滚去掉三点水念什么| 不苟言笑的苟是什么意思| 什么是理学| 什么样的人招蚊子| 金针菇不能和什么一起吃| 刑冲破害是什么意思| 摩纳哥为什么这么富| 怀孕什么时候建档| c1e驾照能开什么车| 孩子脾虚内热大便干吃什么药| 蒲公英的花是什么颜色| 人咬人有什么危害| 暮春是什么时候| 请辞是什么意思| 面瘫吃什么药好| 40岁属什么生肖| cvc是什么| 早上做什么运动最好| 三岁看大七岁看老什么意思| 肚子疼挂什么科室| 家是什么| 心力憔悴是什么意思| 画蛇添足什么意思| 水光是什么| 豆豉炒什么菜好吃| 嘴唇上火吃什么药| 胆结石是什么原因造成的| ppi是什么药| 哮喘病应该注意什么| 伤口止血用什么药| hm是什么牌子的衣服| 鲁智深的绰号是什么| 吃饭就吐是什么原因| 11月18日是什么星座| 什么体质容易长结石| 开指是什么意思| 婴儿大便有泡沫是什么原因| 今年是什么年天干地支| 胎儿右侧脉络丛囊肿是什么意思| 小孩放屁很臭是什么原因| 主动脉夹层是什么病| 蚕豆不能和什么一起吃| 寸头是什么意思| 抗坏血酸是什么意思| 刘欢属什么生肖| 女性脚冰凉是什么原因| gmp是什么意思| 双侧上颌窦炎是什么病| 什么玉便宜又养人| 精子为什么叫怂| 月经是黑色的是什么原因| 窦是什么意思| 灰喜鹊吃什么| 脑卒中是什么意思| 无氧运动是什么意思| 锴字五行属什么| 相貌是什么意思| 目不暇接的意思是什么| 乳头是什么| 烟火气息是什么意思| 知性是什么类型的女人| 补肾吃什么药效果最好| 孤寡老人国家有什么政策| 雪纺是什么面料| 藠头是什么菜| 大姨妈能吃什么水果| 双子女喜欢什么样的男生| 女红是什么意思| 抵税是什么意思| 恶心头晕是什么症状| 怀孕一个月有什么症状| 梦见父亲去世预示什么| 什么是鼻炎| 卡号是什么| 鼻窦炎是什么病| 611是什么意思| 肩颈疼痛挂什么科| 自缢是什么意思| 以色列是什么人种| 什么是螨虫型痘痘图片| 乙肝五项一五阳性什么意思| 山楂和什么泡水喝减肥效果最好| 什么是津液| 什么是生物制剂| 什么是职业道德| 江米和糯米有什么区别| 市公安局政委是什么级别| 先兆性流产有什么症状| 香菇不能和什么一起吃| 吃钙片有什么好处| 日语一个一个是什么意思| 1928年属什么生肖| 梦到吵架是什么意思| alt什么意思| 警察在古代叫什么| 深柜是什么意思| 心电图t波改变什么意思| 包皮是什么样子图片| 吃了阿莫西林不能吃什么| 衤叫什么偏旁| 外阴苔癣是一种什么病| 嗓子沙哑吃什么药| 医学影像技术是干什么的| 鸡头米是什么东西| 腋臭和狐臭有什么区别| 12月13号是什么星座| ip什么意思| 为什么会长痱子| 领导喜欢什么样的员工| 囊肿是什么原因| 涤纶是什么材料| 果脯是什么东西| 菊花什么颜色| 醋泡花生米有什么功效| camouflage什么意思| 麦粒肿涂什么药膏| 老说梦话是什么原因| 胶原蛋白什么牌子好| 顺从是什么意思| 肾检查挂什么科| 宫颈口出血是什么原因| 小别胜新婚是什么意思| 什么茶去火| 子宫内膜为什么会增厚| 什么水果最甜| 藏青色配什么颜色好看| 什么是穿刺| 小孩子发烧是什么原因引起的| 什么的草坪| al是什么| 百度
Skip to content
electronic eye

四大行瘦身:利息净收入减少近1400亿 减员近两万

百度 这本《戍卫一生——我们的红色警卫生涯》就是这二位老人的子女根据老人的回忆和笔记成立而成的。

Image recognition and voice features aim to make the AI bot's interface more intuitive.

Benj Edwards | 92
An illustration of a cybernetic eyeball.
An illustration of a cybernetic eyeball. Credit: Getty Images
An illustration of a cybernetic eyeball. Credit: Getty Images
Story text

On Monday, OpenAI announced a significant update to ChatGPT that enables its GPT-3.5 and GPT-4 AI models to analyze images and react to them as part of a text conversation. Also, the ChatGPT mobile app will add speech synthesis options that, when paired with its existing speech recognition features, will enable fully verbal conversations with the AI assistant, OpenAI says.

OpenAI is planning to roll out these features in ChatGPT to Plus and Enterprise subscribers "over the next two weeks." It also notes that speech synthesis is coming to iOS and Android only, and image recognition will be available on both the web interface and the mobile apps.

OpenAI says the new image recognition feature in ChatGPT lets users upload one or more images for conversation, using either the GPT-3.5 or GPT-4 models. In its promotional blog post, the company claims the feature can be used for a variety of everyday applications: from figuring out what's for dinner by taking pictures of the fridge and pantry, to troubleshooting why your grill won’t start. It also says that users can use their device's touch screen to circle parts of the image that they would like ChatGPT to concentrate on.

A shot taken from an OpenAI promotional video where ChatGPT analyzes user photos to help adjust a bike seat.
A shot taken from an OpenAI promotional video where ChatGPT analyzes user photos to help adjust a bike seat.
A shot taken from an OpenAI promotional video where ChatGPT analyzes user photos to help adjust a bike seat.
A shot taken from an OpenAI promotional video where ChatGPT analyzes user photos to help adjust a bike seat.

On its site, OpenAI provides a promotional video that illustrates a hypothetical exchange with ChatGPT where a user asks how to raise a bicycle seat, providing photos as well as an instruction manual and an image of the user's toolbox. ChatGPT reacts and advises the user how to complete the process. We have not tested this feature ourselves, so its real-world effectiveness is unknown.

So how does it work? OpenAI has not released technical details of how GPT-4 or its multimodal version, GPT-4V, operate under the hood, but based on known AI research from others (including OpenAI partner Microsoft), multimodal AI models typically transform text and images into a shared encoding space, which enables them to process various types of data through the same neural network. OpenAI may use CLIP to bridge the gap between visual and text data in a way that aligns image and text representations in the same latent space, a kind of vectorized web of data relationships. That technique could allow ChatGPT to make contextual deductions across text and images, though this is speculative on our part.

Meanwhile in audio land, ChatGPT's new voice synthesis feature reportedly allows for back-and-forth spoken conversation with ChatGPT, driven by what OpenAI calls a "new text-to-speech model," although text-to-speech has been solved for a long time. Once the feature rolls out, the company says that users can engage the feature by opting in to voice conversations in the app's settings and then selecting from five different synthetic voices with names like "Juniper," "Sky," "Cove," "Ember," and "Breeze." OpenAI says these voices have been crafted in collaboration with professional voice actors.

OpenAI's Whisper, an open source speech recognition system we covered in September of last year, will continue to handle the transcription of user speech input. Whisper has been integrated with the ChatGPT iOS app since it launched in May. OpenAI released the similarly capable ChatGPT Android app in July.

“ChatGPT is not always accurate”

When OpenAI announced GPT-4 in March, it showcased the AI model's "multimodal" capabilities that purportedly allow it to process both text and image input, but the image feature remained largely off-limits to the public during a testing process. Instead, OpenAI partnered with Be My Eyes to create an app that could interpret photos of scenes for blind persons. In July, we reported that privacy issues prevented OpenAI's multimodal features from release until now. Meanwhile, Microsoft less cautiously added image recognition capability to Bing Chat, an AI assistant based on GPT-4, in July.

In its recent ChatGPT update announcement, OpenAI points out several limitations to the expanded features of ChatGPT, acknowledging issues that range from the potential for visual confabulations (i.e., misidentifying something) to the vision model's less-than-perfect recognition of non-English languages. The company says it has conducted risk assessments "in domains such as extremism and scientific proficiency" and sought input from alpha testers but still advises caution on its use, especially in high-stakes or specialized contexts like scientific research.

Informed by the privacy issues encountered while working on the aforementioned Be My Eyes app, OpenAI notes that it has taken "technical measures to significantly limit ChatGPT’s ability to analyze and make direct statements about people since ChatGPT is not always accurate and these systems should respect individuals’ privacy."

Despite their drawbacks, in marketing materials, OpenAI is billing these new features as giving ChatGPT the ability to "see, hear, and speak." Not everyone is happy about the anthropomorphism and potential hype language involved. On X, Hugging Face AI researcher Dr. Sasha Luccioni posted, "The always and forever PSA: stop treating AI models like humans. No, ChatGPT cannot 'see, hear and speak.' It can be integrated with sensors that will feed it information in different modalities."

While ChatGPT and its associated AI models are clearly not human—and hype is a very real thing in marketing—if the updates perform as shown, they potentially represent a significant expansion in capabilities for OpenAI's computer assistant. But since we have not evaluated them yet, that remains to be seen.

We'll keep you updated with new developments as the new features roll out widely in the coming weeks. In the meantime, OpenAI says the delay is for a good reason: "We believe in making our tools available gradually," they write, "which allows us to make improvements and refine risk mitigations over time while also preparing everyone for more powerful systems in the future."

Listing image: Getty Images

Photo of Benj Edwards
Benj Edwards Senior AI Reporter
Benj Edwards is Ars Technica's Senior AI Reporter and founder of the site's dedicated AI beat in 2022. He's also a tech historian with almost two decades of experience. In his free time, he writes and records music, collects vintage computers, and enjoys nature. He lives in Raleigh, NC.
92 Comments
脑供血不足吃什么药好得快 姑爹是什么意思 月抛是什么意思 莫字五行属什么 蹭饭吃是什么意思
长子是什么意思 鼻窦炎有什么症状 梦见猫是什么预兆 血压低压低是什么原因 伟哥叫什么
什么是宫颈息肉 发烧呕吐是什么原因 积食吃什么食物帮助消化 mj是什么单位 为什么会得阴道炎
孩子咳嗽能吃什么水果 甲鱼吃什么食物 农历十月初八是什么星座 bp是什么意思医学上面 网易是干什么的
新生儿拉肚子是什么原因引起的hcv7jop5ns0r.cn 胖子从12楼掉下来会变什么hcv7jop4ns6r.cn 来曲唑片什么时候吃最好hcv9jop2ns3r.cn 旭五行属什么hcv9jop2ns6r.cn 长胸毛的男人代表什么hcv8jop3ns3r.cn
氢化油是什么东西hcv8jop2ns2r.cn 例假是什么hcv9jop0ns3r.cn 儿童抽动症看什么科jiuxinfghf.com hcg是什么意思520myf.com 气血不足吃什么好食补hcv8jop4ns0r.cn
万花筒是什么hcv9jop8ns0r.cn 验孕棒什么时候测最准hcv8jop4ns0r.cn 阿司匹林什么时候吃hcv8jop5ns0r.cn 氟比洛芬是什么药hcv9jop3ns6r.cn 脊髓空洞是什么意思hcv8jop9ns7r.cn
马齿笕有什么功效hcv8jop8ns6r.cn 翡翠对人体有什么好处hcv9jop5ns9r.cn 细胞学检查是什么hcv8jop2ns0r.cn 清华什么专业最好hcv8jop4ns8r.cn 忘带洗面奶用什么代替hcv9jop6ns5r.cn
百度