Google 突然发布重磅 AI 杀手锏——Gemini。多模态 Gemini 可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。谷歌史上最强大模型Gemini发布了! 拥有强大的多模态能力,能像人一样互动,可以看、听、说。从 12 月 13 日开始,开发者和企业客户将可以通过 Google AI Studio 或 Google Cloud Vertex AI 访问 Gemini Pro 的 Gemini API。 Gemini Ultra 目前只提供给被邀请的客户、开发者、合作伙伴以及安全专家进行早期实验和反馈,并计划于明年初向开发者和企业客户推出。
gemini ai官网: https://blog.google/technology/ai/google-gemini-ai/
Google发布地表最强大模型Gemini 1.0,遥遥领先GPT4 1.原生多模态构建 2.三个Size安卓也能运行 3.基准能力测试遥遥领先 4.最强编码能力 5.最强推理能力
详细测评
Google发布Gemini:全球首个多模态AI大模型
在一系列引人入胜的演示中,Google于12月6日发布了其最新的AI大模型Gemini。这款模型被设计为多模态,能够无缝理解、操作和组合文本、代码、音频、图像和视频等不同类型的信息。Gemini的灵活性使其能够在数据中心和移动设备上高效运行,标志着Google在AI领域的最新进展。
Gemini被视为Google在AI大模型领域的巅峰之作。与市场上现有的大模型相比,Gemini从一开始就被构建为多模态模型,展现了其强大的通用性。Google DeepMind产品副总裁Eli Collins表示,Gemini是迄今为止Google最强大的AI大模型。
Gemini的发布在OpenAI的GPT-4 Turbo推出后,为AI领域注入了新的竞争力。Google CEO Sundar Pichai称Gemini代表了公司在科学和工程方面的最大努力,同时强调这是Google DeepMind成立以来的实现愿景的关键一步。
Gemini分为三个版本,分别是Ultra、Pro和Nano。其中,Gemini Ultra是规模最大、功能最强大的模型,适用于高度复杂的任务;Gemini Pro适用于可扩展的各种任务;Gemini Nano则专注于端侧设备上的应用。
Gemini在多个基准测试中表现出色,尤其在自然图像、音频和视频理解以及数学推理方面。Gemini Ultra在MMLU测试中的得分率超过了人类专家,证明其在世界知识和问题解决能力方面具有卓越表现。此外,Gemini在新的MMMU基准测试中获得了59.4%的SOTA分数,展示了其在多模态任务上的领先地位。]
Gemini的多模态推理能力使其在解释复杂信息、回答问题以及解决数学和物理问题等方面表现出色。Gemini还通过阅读、过滤和理解信息,从大量文件中提取数据集和观点,有望在科学、金融等领域实现新的突破。
Gemini的背后采用了由Google自研的云芯片TPUs v4和v5e,在通过AI优化的基础设施上进行大规模训练。Google还发布了最新的TPU系统Cloud TPU v5p,训练速度比前代快2.8倍,有助于更快地训练大规模生成式AI模型。
在实际应用方面,Gemini已经在Google旗下的聊天机器人Bard中集成,提供英语服务,并计划在未来几个月扩展不同的模态和支持新的语言和地区。Gemini还将应用于Google更多的产品和服务,包括Search、Ads、Chrome和Duet AI。
Gemini的发布引起了业界广泛关注,然而,Google强调对其进行了严格的安全评估,包括偏见和毒性评估,并应用了对抗性测试技术以降低潜在风险。Gemini的早期版本将提供给部分客户、开发者、合作伙伴以及安全和责任专家进行试验和反馈,以不断完善模型。
Gemini的上线标志着Google在人工智能领域的巨大进步,展示了其在推动新一代AI模型发展方面的领导地位。Gemini预计将在明年初向开发者和企业客户提供,为AI领域带来更多创新和应用。