Pesan Berita Gate, 23 April — Peneliti Google, termasuk He Kaiming dan Xie Saining, menerbitkan sebuah makalah yang memperkenalkan Vision Banana, model pemahaman visi serbaguna yang dibuat melalui fine-tuning instruksi ringan dari model pembuatan gambar Nano Banana Pro (Gemini 3 Pro Image) milik perusahaan. Inovasi utamanya menyatukan output dari semua tugas visi sebagai gambar RGB, sehingga memungkinkan segmentasi, estimasi kedalaman, dan prediksi normal permukaan melalui pembuatan gambar tanpa arsitektur atau fungsi rugi yang spesifik tugas.

Dalam semantic segmentation, Vision Banana mengungguli model khusus SAM 3 sebesar 4,7 poin persentase pada Cityscapes; dalam referring expression segmentation, ia melampaui SAM 3 Agent. Namun, ia tertinggal di belakang SAM 3 untuk instance segmentation. Untuk tugas 3D, estimasi kedalaman metrik mencapai akurasi rata-rata 0,929 di empat kumpulan data standar, melampaui Depth Anything V3 sebesar 0,918, dengan hanya data sintetis tanpa informasi kedalaman nyata atau parameter kamera saat inferensi. Estimasi normal permukaan mencapai hasil state-of-the-art pada tiga benchmark indoor.

Fine-tuning melibatkan data tugas visi yang minimal dicampurkan ke pelatihan pembuatan gambar asli, sambil mempertahankan kemampuan generasi model—kinerjanya menyamai Nano Banana Pro yang asli dalam uji kualitas generasi. Makalah tersebut mengusulkan bahwa pretraining pembuatan gambar dalam visi sejajar dengan pretraining pembuatan teks dalam bahasa: model mempelajari representasi internal yang dibutuhkan untuk pemahaman gambar selama proses generasi, sementara fine-tuning instruksi hanya melepaskan kemampuan ini.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

DeepSeek Merilis TileKernels Secara Open Source, Pustaka Kernel GPU untuk Pelatihan dan Inferensi Model Besar

Perkembangan Proyek Berita Industri AI

Pesan Gate News, 23 April — DeepSeek telah merilis TileKernels sebagai open source di bawah lisensi MIT, sebuah pustaka kernel GPU yang ditulis dalam TileLang untuk pelatihan dan inferensi model bahasa besar. TileLang adalah bahasa pemrograman khusus domain yang dikembangkan oleh tim tile-ai untuk mengekspresikan kernel GPU berperforma tinggi dalam

GateNews6menit yang lalu

Samsung SDS Memperluas Kemitraan dengan Google Cloud untuk Melayani Sektor yang Diatur dengan Layanan AI dan Keamanan

Berita Industri AI

Pesan Berita Gerbang, 23 April — Samsung SDS memperluas kemitraannya dengan Google Cloud untuk menyediakan layanan AI, komputasi cloud, dan keamanan bagi industri yang teregulasi termasuk pemerintah dan layanan keuangan. Perusahaan-perusahaan tersebut akan menerapkan Google Distributed Cloud untuk pelanggan yang memerlukan pelokalan data

GateNews30menit yang lalu

Sullivan & Cromwell Meminta Maaf atas Halusinasi AI dalam Berkas Pengadilan dengan 40 Sitasi Keliru

Berita Industri AI

Pesan Gate News, 23 April — Sullivan & Cromwell, firma hukum besar di Wall Street, meminta maaf kepada seorang hakim federal setelah mengajukan berkas pengadilan yang berisi sekitar 40 sitasi yang tidak benar dan kesalahan lain yang disebabkan oleh halusinasi AI. Andrew Dietderich, rekan kepala tim restrukturisasi global firma tersebut,

GateNews46menit yang lalu

Tencent Merilis dan Merilis Kode Sumber Terbuka Pratinjau Hunyuan Hy3 dengan 295B Parameter

Berita Industri AI

Pengumuman Gerbang Berita, 23 April — Tencent meluncurkan dan merilis kode sumber terbuka pratinjau Hunyuan Hy3, sebuah model bahasa hybrid campuran-of-ahli (mixture-of-experts) yang menggabungkan pemikiran cepat dan lambat. Model ini memiliki total 295 miliar parameter dengan 21 miliar parameter aktif, mendukung panjang konteks maksimum 256K

GateNews1jam yang lalu

Korea Selatan dan Vietnam Teken 70+ MoU tentang AI, Energi, dan Infrastruktur Data

Berita Industri AI

Pesan Berita Gate, 23 April — Korea Selatan dan Vietnam menandatangani lebih dari 70 memorandum of understanding (MoU) selama kunjungan kenegaraan Presiden Lee Jae Myung ke Hanoi pada 23 April, mencakup AI, energi, infrastruktur, dan telekomunikasi. Sebuah forum bisnis yang dihadiri lebih dari 500 eksekutif membahas ekosistem AI dan industri tenaga, dengan konglomerat Korea terkemuka termasuk Samsung, SK, LG, dan Hyundai diwakili.

GateNews1jam yang lalu

Mesin kuis jawaban AI terkontaminasi massal: 56% dari jawaban yang benar di Gemini 3 tidak memiliki dukungan sumber

Berita Industri AI

Artikel ini menyatakan bahwa mesin tanya-jawab berbasis AI melakukan kutipan halaman web secara real-time saat melakukan kueri; jika sumbernya merupakan hasil AI yang dihasilkan atau kekurangan bukti, maka hal itu mencemari hasil. Tidak perlu pelatihan ulang agar dapat menjadi efektif, yang disebut sebagai kontaminasi penelusuran (retrieval contamination). Meskipun Gemini3 memiliki tingkat akurasi yang tinggi, 56% jawabannya tidak memiliki sumber yang dapat diverifikasi; kasus Lily Ray, Grokipedia, dan lainnya menunjukkan bahwa AI mudah tertipu oleh konten buatan sendiri. Kesimpulannya adalah lapisan sitasi dan penulis yang dapat diandalkan terlepas, sehingga membentuk siklus kontaminasi yang saling menguatkan; pengguna tetap harus menelusuri kembali sumber aslinya, dan jangan menganggap jawaban sebagai titik akhir pemeriksaan fakta.

ChainNewsAbmedia1jam yang lalu

Komentar

0/400

Tidak ada komentar