斯坦福大学研究生开发AI模型PIGEON，实现Google街景图像准确定位

释放双眼，带上耳机，听听看~！

斯坦福大学研究生开发的PIGEON应用程序利用神经网络和GeoGuessr数据集，实现了对Google街景图像的高准确率定位。该论文还探讨了AI在图像地理定位方面的潜力和相关的伦理考虑。

划重点:

– 研究生们在斯坦福大学开发出一款 AI 模型，可以通过查看 Google 街景图像，以令人印象深刻的准确率确定具体位置。

– 这款名为 PIGEON 的应用程序可以在很大程度上准确地确定 Google 街景中的具体位置，其预测国家的准确率达到92%，并且在40%的猜测中可以将位置定位在目标位置的25公里范围内。

– 该模型基于 OpenAI 开发的神经网络 CLIP，以及 GeoGuessr 游戏的数据集进行训练，取得了令人印象深刻的成果。

AICMTY（aicmty.com）12月20日消息:斯坦福大学的研究生们开发了一款名为 PIGEON 的应用程序，可以仅仅通过查看 Google 街景图像或其他图像来确定具体位置，其准确率令人印象深刻。

根据预印本论文的数据，PIGEON 可以以92%的准确率预测所拍摄国家，并且在40%的猜测中可以将位置定位在目标位置的25公里范围内。该论文指出，PIGEON 在 GeoGuessr 游戏中排名前0.01%的玩家之内，该游戏要求用户根据所拍摄的 Google 街景图像猜测位置，这也是这个项目的灵感来源。

那么，PIGEON 是如何工作的呢?

学生们利用了 OpenAI 开发的神经网络 CLIP，通过对视觉类别名称进行训练，使其能够将文本和图像进行连接。然后，他们根据 GeoGuessr 的数据集进行了训练，该数据集包含了10万个原始随机采样的地点和四张图像，以覆盖给定位置的整个 “全景”，总共有40万张图像。与其他 AI 模型训练的图像数量相比，PIGEON 的训练图像数量相对较少。例如，OpenAI 流行的图像生成模型 DALL-E2是基于数亿张图像进行训练的。

斯坦福大学研究生开发AI模型PIGEON，实现Google街景图像准确定位

此外，学生们还研发了一个名为 PIGEOTTO 的单独模型，该模型通过训练来自 Flickr 和维基百科的400万张照片，以从单张图像中识别位置。根据论文的数据，PIGEOTTO 在图像地理定位基准测试中取得了令人印象深刻的成绩，在城市准确度方面超过先前的最新技术结果7.7%，在国家准确度方面超过29.8%。

论文还探讨了与该模型相关的伦理考虑，包括其益处和风险。在一方面，图像地理定位具有许多积极的用途，例如自动驾驶、视觉调查以及满足对照片拍摄地点的好奇心。然而，其负面影响包括对隐私的最直接侵犯。因此，学生们决定不公开发布模型权重，仅在学术验证时发布代码。

这项研究为我们展示了 AI 在图像地理定位方面的巨大潜力，但也引发了隐私和伦理方面的一些担忧。在将来的发展中，必须更加重视这些问题，并确保合适的保护措施得以实施。

论文网址:https://arxiv.org/abs/2307.05845

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

斯坦福大学研究生开发AI模型PIGEON，实现Google街景图像准确定位

2023年人工智能对劳动力影响的讨论及最新调查结果

AI开源社区和闭源模型竞争格局图表分析

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

2023年人工智能对劳动力影响的讨论及最新调查结果

AI开源社区和闭源模型竞争格局图表分析

马里兰&NYU合力研究神经网络模型反转技术

三星发布全新生成式AI模型Samsung Gauss，提升工作效率和用户体验

ChatGPT自拍照事件揭秘：AI模型随机生成Imgur链接导致网友恐慌

GPT-5即将问世？泄密者透露多模态Gobi或为GPT-5