人机交互发展中的化学反应:OpenAI、ChatGPT和前端马仔

释放双眼,带上耳机,听听看~!
本文探讨了人机交互领域的发展历程,以及OpenAI、ChatGPT和前端马仔在其中所起的作用,分析了内容呈现的物理限制和推荐算法的挑战,以及与搜索功能的对比。

经过一番折腾,昨天终于给 openai 绑上卡了,避免了调用 api 3/min 的尴尬🥲, 从 ChatGPT 出圈开始,我就一直在思考🤔,像 LangChain 这样的框架,OpenAI 这样的基础大模型供应商,在结合人机交互的专业(前端马仔)这三者之间会产生什么样的化学反应。

从上世纪 70 年代,人机交互经历了从命令行交互到图形化交互,从单一的显示屏到现在复杂的多终端,语音,视觉,触摸,键盘鼠标,我们几乎把我们身上能活动的器官都试了一遍,试图寻找一种能够和计算机直接交流的方法。

这是个很微妙的过程,从传统的 C/S 到 B/S 虽然程序的交付方式在变化,但交互模式并没有产生实质性的改变,B/S 相对于 C/S 的程序而言,可以实现更复杂的交互体验,早期互联网的以快打快的试错模式更是把产品交互的局限性试图通过快速迭代来规避。

事实上在交互设计上一直有个原则就是避免呈现给用户过度复杂的界面,包括颜色,布局,通过化繁为简的方式来让用户能够更快的理解产品的使用方式。

这个原则对于普通的工具可能适用,比如最典型的遥控器,但是对于智能应用来说,化繁为简往往意味着没有功能,例如在电商领域,无论设计师想如何简洁呈现,最终我们看到的版本依然是一个塞满了各种功能的超级 App

于是就产生了千人千面的推荐方案,因为设备屏幕上的物理限制,我们通常很难把我们想要的一股脑儿呈现给客户,另外即便能,那客户也会陷入选择困难,为了客户的喜好,工程师们开发了极其复杂的推荐系统,通过各种纬度拐弯抹角的采集用户的偏好,试图实现内容的精准推荐,以便让客户长期驻留在 App 上。

为了突破这种内容呈现的物理限制,我们尝试了非常多的方案,例如 XR,包括最近苹果演示的 visionOS,通过加入空间视觉,来让用户能够看到更多的内容。

综上所述,在人机交互发展的这些年里,虽然我们经历了巨大的技术变革,互联网,大数据,云计算,机器学习…,但本质上我们依然是为了开发出具有某种特征的软件,来实现一种目的

  1. 在有限空间内呈现无限的内容
  2. 在无限的内容中呈现最精确的内容

从这两个特征看,这也是为什么 Google 是全球最有价值的互联网公司的原因,百度没撑起来很大程度上是自己作死忽视了搜索作为互联网第一大产品的核心特征。

那么这些和 OpenAI 又有什么关系呢?

如果你关心投资界的风向,就应该注意到在 ChatGPT 最初的阶段,受到冲击最大的就是 Google,为此这家巨头公司还在内部拉响了红色警报,究其根本也是因为 ChatGPT 的出现具备打破现有互联网产品的格局。

如果你是创业者,那么在 ChatGPT 出现之前的时间因该感受到明显的窒息,因为全球最大的互联网公司们,利用本身的资源和技术优势几乎垄断了,内容的生产和内容的推荐,前者是平台背后海量的内容生产者形成的生态,而后者则是计算机算力和算法的技术托拉斯

关于这一点,我们不妨思考下,为什么全世界电商可以形成百花齐放的模式,而社交和搜索却很难?

因为电商的内容很难完在一块只有 6.7 英寸的屏幕上完整呈现,即便你的推荐算法再强大,那也只是拐弯抹角的打听用户的喜好,而对于几十亿人口来说,很难有一家公司在现在的这种移动终端上实现内容的无限呈现和精确推荐,一方面是电商内容的形式一直在变化,从图文到视频到直播,另一方面,推荐算法虽然纬度越高越精准,但是在过了某个阈值之后,在有限的内容空间下,也很难做到用一屏的内容准确抓住用户的需求。

另外搜索这个核心功能对于用户而言,每一次搜索都是无状态的,哪个搜索的输入框背后只是平台的商业规则在驱动结果呈现,而不是用户的偏好在呈现。

假设你要去新疆旅游,你自然想排出贼棒的照片,于是你要搜索帮助你实现这一点的内容

  1. 去小红书搜别人的照片怎么拍
  2. 去各大电商挑衣服
  3. 去线下门店试穿
  4. 去搜特价机票
  5. 去搜路线攻略,查看当地天气
  6. 去搜美食…

每个人都希望得到个性化的服务,但最终我们在搜索这些内容获取有效服务的过程还得被各种营销和虚假内容侵蚀,你还得有能够辨别这些内容的能力。

所以如果有一个搜索程序,能够帮你解决这些问题,同时还给你建议,并且帮你完成各种安排,那必然是对现在所有互联网产品的一个巨大颠覆。

这也是为什么 ChatGPT 最初让 Google 如此不安的原因。

虽然目前我们还没有看到类似惊艳的产品出现,但是我相信,随着 ChatGPT 背后大模型的能力越来越强,包括多模态识别,工具调用能力,新的软件工程模式的发展,我们最终会看到新一代的科技产品。

而类似 LangChain 这样的框架就是顺应这股潮流而诞生的,那么对于前端而言这一切又意味着什么呢。

在最初 ChatGPT 出现的时候,我就在思考,如果大模型能够理解自然语言,并且知道语言背后因该使用哪些工具来完成任务,那么我们现在这种预设的前端交互是否还有意义呢?

现有的产品开发模式都是,产品经理根据用户需求,推导某种假设,用户需要按照某种路径来完成任务,但实际情况这种路径通常不是标准的,为了平衡开发成本和体验,我们需要将大量的使用路径变成一种标准模式然后通过产品教育来教育用户,最终让用户习惯这种使用路径从而实现用户的需求。

然后你就会发现,所有某种类型的 App 它必然会逐渐长成一个样子。
这是因为创新交互模式的教育成本太高,而且未必会让用户买单,在物理限制下一定存在某种最佳的交互方案,达到用户学习门槛,和产品设计复杂度之间的一个平衡点。

但我认为这只是现有环境下的一种妥协,就好像键盘是一种妥协的产物,鼠标也是,Mac 的触摸板不就挺好?

但是如果你回到现实世界,实际上我们是怎么交互的呢?

无论做什么,我们都是通过语言,想象下,进入便利店,你在货架上挑选了商品,来结账,这时候你说结账,店员就拿出扫码枪给你操作,但如果你说,再来包烟,他又会转身给你拿一包烟。

我们接受的基础教育,语言是我们能够进行互动的最强大的工具,既然如此为什么在互联网这个世界里,用户就都成了哑巴了呢?

哑巴用户才会被当成傻瓜,而傻瓜们自然会陷入算法的困境,如果在现实世界,你不能说话,你只能通过固定的设备去操作来完成交互,那必然是个巨大的灾难,所有个性都消失,只剩下标准的流程和一个沉默的世界。

所以评论,朋友圈,发微博,发视频,发笔记的价值如此之大是因为在这个沉默的互联网里,用户非常渴望互动,而 ChatGPT 的出现极有可能在未来的人机交互领域引发巨大的颠覆,这种颠覆来自于传统 GUI 的固有模式被打破,未来的应用可能不再有页面的概念,一切交互组件都是可以共享并且被随意组合的,用户通过和大模型交互,大模型理解自然语言,并调用不同的呈现函数,呈现不同类型的内容给用户,并且在和用户的沟通中逐步完成用户的需求。 没有预设页面,没有固定的产品设计,一切都是巨大的功能集合,屏幕的物理限制会被打破,一切都将只是对话。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

AI技术在森林火灾预防和扑救中的应用及机器学习案例分析

2023-12-12 21:11:14

AI教程

人工智能时代的革命性进展和未来展望

2023-12-12 21:19:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索