编程开源技术交流,分享技术与知识

网站首页 > 开源技术 正文

GPT4Vision刚自主上网、发帖、玩游戏,VimGPT来了

wxchong 2024-10-18 14:35:05 开源技术 12 ℃ 0 评论

VimGPT是一款基于GPT 4Vision和Vimium的浏览互联网工具,旨在使互联网浏览变得更加高效,这将大幅提高浏览互联网上海量信息量的效率。

GPT 4V是目前最先进的开放源代码的人工智能语言模型之一,其参数数目比之前的GPT系列模型更多,预测能力更强,可以帮助用户更好地理解和推理互联网上的内容。

而Vimium是一款非常受欢迎的浏览器扩展程序,可以让用户使用键盘更加方便地控制浏览器,大大提高了互联网览的效率,将二者结合便组成了Vim GPT这个高效浏览互联网的利器,为用户带来了更加高效的互联网浏览体验。

在使用VimGPT进行互联网浏览时,GPT 4Vision为用户提供了更好的语言理解和推理能力。在搜索引擎上输入关键词时,GPT4Vision能够帮助用户更准确地理解其意义,给出更符合用户需求的搜索结果。在阅读新闻科技等文章时,GPT4Vision能够识别出关键信息,并在页面上进行标记方便用户查看。

除此之外VimGPT还可以根据用户的阅读习惯,自动学习用户的喜好并为用户推荐相关的和新闻。这个功能能够大大提高用户获取信息的效率,让用户用更少的时间获取更丰富的信息。同时VimGPT还具有一定的自我学习能力,能够根据用户反馈自动更新自身的算法和模型,为用户提供更好的体验。

前不久一个MIT本科生小哥开发了GPT 4Vision-Act,使GPT-4Vision学会用键鼠上网,还可以发帖甚至玩游戏。

GPT4Vision-Act是一个基于Web浏览器的AI多模态助手,(Chromium Copilot)这个助手使用键鼠上网,让GPT4Vision能够像人类一样操作电脑、浏览网页、发帖、买东西甚至玩游戏。这个创新的工具让GPT4Vision能够通过图像界面和用户进行交互,还能自主"播放音乐"。GPT-4Vision通过三个工具实现了让人目瞪口呆的操作。

·1、通过UI界面实现交互,将GPT4Vision接入鼠标和键盘让它具备操作电脑的能力。使用UI界面可以让GPT4Vision看到网页截图并与用户进行交互。

·2、Set-of-Mark Prompting(SoM)指导交互,SoM指导GPT4Vision的交互行为使GPT4Vision能够更加准确地找到答案。它可以将图片关键细节拆分成不同的部分并进行编号,SoM就可以让GPT4Vision知道从网页浏览器的哪个部分寻找答案并与之交互。

·3、自动标注器(JS DOM auto-labeler)可以将网页端所有能交互的按键标注出来,让GPT4Vision决定哪个按键要按从而使GPT-4Vision实现自动上网。之前搞不清聊天发帖的是美眉还是抠脚大汉,现在连对方是不是人都不确定了?

更多人工智能领域讯息,敬请关注公众号"AI时代2023"!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表