Semua gambar ini dihasilkan oleh AI text-to-image terbaru Google
totosgp

Semua gambar ini dihasilkan oleh AI text-to-image terbaru Google

Ada tren panas baru di AI: generator teks-ke-gambar. Beri makan program ini teks apa pun yang Anda suka dan mereka akan menghasilkan gambar yang sangat akurat yang cocok dengan deskripsi itu. Mereka dapat mencocokkan berbagai gaya, dari lukisan cat minyak hingga render CGI dan bahkan foto, dan — meskipun terdengar klise — dalam banyak hal satu-satunya batasan adalah imajinasi Anda.

Hingga saat ini, pemimpin di bidangnya adalah DALL-E, sebuah program yang dibuat oleh lab AI komersial OpenAI (dan diperbarui pada bulan April). Namun, kemarin, Google mengumumkan genrenya sendiri, Imagen, dan itu baru saja menggeser DALL-E dalam kualitas outputnya.

Cara terbaik untuk memahami kemampuan luar biasa dari model ini adalah dengan melihat beberapa gambar yang dapat mereka hasilkan. Ada beberapa yang dihasilkan oleh Imagen di atas, dan bahkan lebih banyak lagi di bawah (Anda dapat melihat lebih banyak contoh di halaman arahan khusus Google).

Dalam setiap kasus, teks di bagian bawah gambar adalah prompt yang dimasukkan ke dalam program, dan gambar di atas, adalah outputnya. Hanya untuk menekankan: hanya itu yang diperlukan. Anda mengetik apa yang ingin Anda lihat dan program menghasilkannya. Cukup fantastis, bukan?

Tetapi sementara gambar-gambar ini tidak dapat disangkal mengesankan dalam koherensi dan akurasinya, mereka juga harus diambil dengan sedikit garam. Saat tim peneliti seperti Google Brain merilis model AI baru, mereka cenderung memilih hasil terbaik. Jadi, meskipun semua gambar ini terlihat sempurna, gambar tersebut mungkin tidak mewakili keluaran rata-rata dari sistem Gambar.

Seringkali, gambar yang dihasilkan oleh model teks-ke-gambar terlihat belum selesai, buram, atau buram — masalah yang telah kita lihat dengan gambar yang dihasilkan oleh program DALL-E OpenAI. (Untuk lebih lanjut tentang titik-titik masalah untuk sistem teks-ke-gambar, lihat utas Twitter yang menarik ini yang membahas masalah dengan DALL-E. Ini menyoroti, antara lain, kecenderungan sistem untuk salah memahami petunjuk, dan berjuang dengan teks dan wajah.)

Namun, Google mengklaim bahwa Imagen menghasilkan gambar yang lebih baik secara konsisten daripada DALL-E 2, berdasarkan tolok ukur baru yang dibuat untuk proyek ini bernama DrawBench.

DrawBench bukanlah metrik yang sangat kompleks: ini pada dasarnya adalah daftar sekitar 200 permintaan teks yang dimasukkan tim Google ke Imagen dan generator teks-ke-gambar lainnya, dengan output dari setiap program kemudian dinilai oleh penilai manusia. Seperti yang ditunjukkan pada grafik di bawah ini, Google menemukan bahwa manusia pada umumnya lebih menyukai keluaran dari Imagen daripada para pesaingnya.

Benchmark DrawBench Google membandingkan output Imagen dengan sistem teks-ke-gambar saingan seperti DALL-E 2. OpenAI.
Gambar: Google

Akan sulit untuk menilai ini sendiri, karena Google tidak membuat model Imagen tersedia untuk umum. Ada alasan bagus untuk ini juga. Meskipun model teks-ke-gambar tentu memiliki potensi kreatif yang fantastis, mereka juga memiliki berbagai aplikasi yang mengganggu. Bayangkan sebuah sistem yang menghasilkan hampir semua gambar yang Anda suka digunakan untuk berita palsu, hoax, atau pelecehan, misalnya. Seperti yang dicatat oleh Google, sistem ini juga mengkodekan bias sosial, dan hasilnya sering kali rasis, seksis, atau beracun dalam beberapa cara inventif lainnya.

Banyak dari ini disebabkan oleh bagaimana sistem ini diprogram. Pada dasarnya, mereka dilatih tentang sejumlah besar data (dalam hal ini: banyak pasangan gambar dan keterangan) yang mereka pelajari untuk pola dan pelajari untuk ditiru. Tetapi model-model ini membutuhkan banyak sekali data, dan sebagian besar peneliti — bahkan mereka yang bekerja untuk raksasa teknologi yang didanai dengan baik seperti Google — telah memutuskan bahwa terlalu berat untuk menyaring masukan ini secara komprehensif. Jadi, mereka mengambil sejumlah besar data dari web, dan sebagai konsekuensinya, model mereka menyerap (dan belajar meniru) semua kebencian yang Anda harapkan dapat ditemukan secara online.

Saat peneliti Google merangkum masalah ini dalam makalah mereka: “[T]persyaratan data skala besar dari model teks-ke-gambar […] telah membuat para peneliti sangat bergantung pada kumpulan data yang besar, sebagian besar tidak dikurasi, dan digores web […] Audit kumpulan data telah mengungkapkan kumpulan data ini cenderung mencerminkan stereotip sosial, sudut pandang yang menindas, dan asosiasi yang menghina, atau berbahaya, terhadap kelompok identitas yang terpinggirkan.”

Dengan kata lain, pepatah kuno para ilmuwan komputer masih berlaku di dunia AI: sampah masuk, sampah keluar.

Google tidak membahas terlalu banyak detail tentang konten bermasalah yang dihasilkan oleh Imagen, tetapi mencatat bahwa model “mengkodekan beberapa bias dan stereotip sosial, termasuk bias keseluruhan untuk menghasilkan gambar orang dengan warna kulit lebih terang dan kecenderungan gambar yang menggambarkan perbedaan. profesi untuk menyelaraskan dengan stereotip gender Barat.”

Ini adalah sesuatu yang juga ditemukan peneliti saat mengevaluasi DALL-E. Minta DALL-E untuk membuat gambar “pramugari”, misalnya, dan hampir semua subjeknya adalah wanita. Mintalah foto seorang “CEO”, dan, kejutan, kejutan, Anda mendapatkan sekelompok pria kulit putih.

Untuk alasan ini OpenAI juga memutuskan untuk tidak merilis DALL-E secara publik, tetapi perusahaan memberikan akses ke penguji beta tertentu. Ini juga menyaring input teks tertentu dalam upaya untuk menghentikan model yang digunakan untuk menghasilkan citra rasis, kekerasan, atau pornografi. Langkah-langkah ini membatasi aplikasi potensial berbahaya dari teknologi ini, tetapi sejarah AI memberi tahu kita bahwa model teks-ke-gambar seperti itu hampir pasti akan menjadi publik di beberapa titik di masa depan, dengan semua implikasi mengganggu yang dibawa oleh akses yang lebih luas. .

Kesimpulan Google sendiri adalah bahwa Imagen “tidak cocok untuk penggunaan umum saat ini,” dan perusahaan mengatakan berencana untuk mengembangkan cara baru untuk membandingkan “bias sosial dan budaya dalam pekerjaan masa depan” dan menguji iterasi di masa depan. Namun, untuk saat ini, kita harus puas dengan pilihan gambar perusahaan yang optimis — royalti rakun dan kaktus yang mengenakan kacamata hitam. Itu hanya puncak gunung es, meskipun. Gunung es yang dibuat dari konsekuensi yang tidak diinginkan dari penelitian teknologi, jika Imagen ingin mencoba menghasilkan itu.

Karena hanya mampu terkait kepada pihak yang sediakan information togel saja yang bisa mendapatkan knowledge sgp lengkap. Lantas dengan sulit nya membuka situs togel singapore pools terhadap negara +62. Maka alangkah baiknya berlangganan pada halaman ini untuk menemukan information keluaran sgp hari ini live tercepat hanya disini.