0:00

İçindekiler

zenctrl_tools: Çok yönlü bir görsel içerik oluşturma aracı

zenctrl_tools , kişiselleştirilmiş görsel içerik oluşturma sürecinin tamamını otomatikleştirmeye adanmış çok işlevli bir görüntü işleme aracıdır. Proje şu anda aktif geliştirme aşamasındadır, bazı model ağırlıkları kamuoyuna açıklanmıştır ve kod yakında açık kaynaklı olacaktır.

Geliştirme ekibi dün ilk resmi demoyu yayınladı ve aşağıdaki temel işlevleri kademeli olarak açık kaynak kodlu hale getireceklerini söyledi:

Kontrol yetenekleri:

Önişleme: arka plan kaldırma, kesme, yeniden şekillendirme, segmentasyon, vb.
Kontrol modeli: destek şekli (Canny/HED/grafiti/derinlik, vb.), duruş, maske, kamera perspektifi
Son işleme: görüntü iyileştirme, renk düzeltme, karıştırma
Düzenleme özellikleri: Onarma (kaldırma/maskeleme, karıştırma/değiştirme), genişletme, hareket dönüştürme, yeniden aydınlatma

Görev işleme:

Arkaplan Üretimi
Kontrollü arka plan üretimi
Bağlamsal tutarlılık üretimi
Nesne yerleşimi
Video Üretimi
Çoklu nesne birleştirme/harmanlama

Uygulama senaryoları:

Ürün Fotoğrafçılığı
Moda aksesuarlarının sanal uyarlaması
Sanal Deneme
Karakter görüntü işleme

Projenin ilerleyişini takip etmek için beni takip edebilirsiniz~

OpenAI GPT-4o’yu yükseltiyor

OpenAI, ChatGPT’de geliştirilmiş komut takibi, programlama yetenekleri ve yaratıcılık ile azaltılmış emoji çıkışı özelliklerine sahip güncellenmiş bir GPT-4o yayınladı. Bu özellik şu anda ücretli kullanıcılar için kullanılabilirken, ücretsiz kullanıcılar da önümüzdeki haftalarda erişime açılacak.

Ayrıca OpenAI Agents SDK artık resmi olarak MCP protokolünü destekliyor ve MCP gerçekten de popüler olmaya hazırlanıyor.

Midjourney V7 önümüzdeki hafta piyasaya sürülebilir

Twitter kullanıcılarının iddiasına göre , bir zamanlar yapay zekalı boyama alanında lider olan Midjourney, önümüzdeki hafta V7 versiyonunu yayınlayacak. Yetkili henüz güncellemenin ayrıntılarını açıklamadı.

Ama dürüst olmak gerekirse, eğer aşırı güçlü bir güncelleme gelmezse, dün saat 4’te gelen çeşitli Ghibli tarzı resimlerin dalgası arasında boğulup gidecektir büyük ihtimalle, tıpkı Ideogram 3.0 gibi.

Ali Tongyi QVQ-Max görsel akıl yürütme modelini başlattı

Alibaba Tongyi, yeni nesil görsel akıl yürütme modeli QVQ-Max’ı piyasaya sürdüğünü duyurdu. Resmi tanıtıma göre, QVQ-Max yalnızca resim ve videoların içeriğini “anlamakla” kalmıyor, aynı zamanda yukarıdaki bilgiler için analiz ve muhakeme de yapabiliyor. Özellikle:

QVQ-Max, görüntüleri ayrıştırmada ve bir resimdeki önemli öğeleri hızla belirlemede üstündür;

QVQ-Max, sağlanan görüntü ve video bilgilerini daha ileri düzeyde analiz edebilir ve bu bilgileri arka plan bilgisiyle birleştirerek sonuçlara ulaşabilir;

QVQ-Max, analiz ve muhakemenin yanı sıra, kullanıcı ihtiyaçlarına göre illüstrasyonlar tasarlayabiliyor, kısa video senaryoları üretebiliyor ve hatta rol yapma içerikleri bile oluşturabiliyor. Performans açısından, Tongyi ekibi QVQ-Max’in düşünme sürecinin uzunluğunu ayarladı ve modelin doğruluğu, çok modlu matematik problemi kıyaslaması “MathVision”da 4K token için %43,5’ten 24K token için %48,1’e yükselmeye devam etti. Şu anda QVQ-Max Qwen Chat’te mevcuttur. (

ElevenLabs sohbet yapay zekası, doğal ve düşük gecikmeli RAG yeteneklerini destekliyor

ElevenLabs, doğal ve düşük gecikmeli RAG’ı sohbet yapay zekasına ekledi—bu sayede sesli asistanınız büyük bilgi tabanlarına gerçek zamanlı olarak erişebilir ve bunları kullanabilir.

RAG teknolojisi, sohbet sırasında yalnızca en alakalı bilgileri alarak daha doğru yanıtlar sunar ve yanlış bilgi üretimini azaltır. RAG, yanıt süresini yaklaşık 500 milisaniye artırsa da sağladığı gerçeklik doğruluğu önemli ölçüde artar.

ElevenLabs, Stripe’ın yıllık mektubuyla ilgili bir demo sundu:
elevenlabs.io/app/talk-to?agent_id=SRq67SLIhbMFDBx93mMi

Öne çıkan ürünler

Epiphany: Sesli notlar aracılığıyla fikirleri hızla eyleme dönüştürmek için bir araç

https://epiphanyvoice.io/

Üretkenliği artıran bir araç olarak konumlandırılan bu araç, öncelikle fikirleri hızlı bir şekilde yakalamak ve uygulamaya koymak isteyen bireylere ve ekiplere yöneliktir. Temel değer önerisi, sesli notlar aracılığıyla fikirleri uygulanabilir eylemlere dönüştürmektir ve birden fazla popüler üretkenlik aracıyla (Notion, Asana, Todoist vb.) entegre olur. Hedef kullanıcılar, manuel giriş süresini azaltmak ve verimliliği artırmak isteyen bireylerdir.

Özellikler ve deneyim açısından Epiphany’nin öne çıkan özellikleri arasında ses-harekete geçirme yeteneği, birden fazla üretkenlik aracıyla entegrasyonu ve basitleştirilmiş kullanıcı arayüzü yer alıyor. Ürünün farklılaştırıcı avantajı, ses girişini sorunsuz bir şekilde yürütülebilir görevlere dönüştürebilmesi ve böylece kullanıcı işlem adımlarının sayısını azaltabilmesidir. Kullanıcı deneyimi açısından Epiphany, hızlı ve etkili bir fikir yakalama ve uygulama süreci sunarak kullanıcıların dikkat dağıtıcı unsurları azaltmalarına ve üretkenliklerini artırmalarına yardımcı oluyor.

{{userData.name}}Sertifikalı

OpenAI, DeepSeek’i yasaklamayı teklif ediyor ve Çin AI’nın bastırılması çağrısında bulunuyor

CMU Profesörü GPT-o1’in Lisans Matematik Sınavında Mükemmel Puan Aldığını Söyledi

6G’yi yeniden düşünmek

İster beğenin ister beğenmeyin, her şey politikadır.

Google Gemini 2.0 Flash modeli güçlü resim filigranı kaldırma işlevine sahip

Google Gemma 3’ü yayınladı — bilmeniz gerekenler

Google Gemini 2.0 Flash yerel görüntü oluşturma işlevini sunuyor

Open-LLM-VTuber: Otakular için iyi haber! Açık kaynaklı AI Wife çevrimdışı sürümü,

AI Kungfu Video Oluşturucu

Makale kapaklarını hızla oluşturmak için MiniCover’ı kullanın

AI Kungfu Video Oluşturucu

Open-Sora 2.0 artık açık kaynaklı!

Trae’nin çıktı , Kullanımı gerçekten kolay mı?

İnternet erişimi olmadan kullanılabilen yerel deepseek tabanlı kişisel bir bilgi tabanı oluşturun

Eclipse, GitHub Copilot’u resmen başlattı!

Ai Haberleri : 29 Mart 2025