1980’ler – 90’lar: Tekrarlayan Sinir Ağları
ChatGPT, yine OpenAI tarafından geliştirilen büyük bir dil modeli olan GPT-3’ün bir sürümüdür. Dil modelleri, çok sayıda metin üzerinde eğitilmiş bir tür sinir ağıdır. (Sinir ağları, hayvan beyinlerindeki nöronların birbirlerine sinyal verme şeklinden ilham alan bir yazılımdır.) Metin, değişen uzunluklardaki harf ve sözcük dizilerinden oluştuğu için, dil modelleri, bu tür verileri anlamlandırabilecek bir tür sinir ağı gerektirir. . 1980’lerde icat edilen tekrarlayan sinir ağları, kelime dizilerini işleyebilir, ancak eğitilmesi yavaştır ve bir dizideki önceki kelimeleri unutabilir.
1997’de bilgisayar bilimciler Sepp Hochreiter ve Jürgen Schmidhuber bunu icat ederek düzelttiler. LTSM (Uzun Kısa Süreli Bellek) ağlar, bir giriş sırasındaki geçmiş verilerin daha uzun süre saklanmasına izin veren özel bileşenlere sahip tekrarlayan sinir ağları. LTSM’ler birkaç yüz kelime uzunluğundaki metin dizilerini işleyebilir, ancak dil becerileri sınırlıydı.
2017: Transformatörler
Günümüzün büyük dil modelleri neslinin arkasındaki atılım, Google araştırmacılarından oluşan bir ekibin icat etmesiyle geldi. transformatörler, her kelimenin veya kelime öbeğinin bir dizide nerede göründüğünü takip edebilen bir tür sinir ağı. Sözcüklerin anlamı genellikle önce veya sonra gelen diğer sözcüklerin anlamına bağlıdır. Transformatörler, bu bağlamsal bilgileri izleyerek daha uzun metin dizilerini işleyebilir ve kelimelerin anlamlarını daha doğru bir şekilde yakalayabilir. Örneğin, “Hot dog bol su verilmeli” ve “Hot dog hardalla yenilmeli” cümlelerinde “hot dog” çok farklı şeyler ifade etmektedir.
2018–2019: GPT ve GPT-2
OpenAI’nin ilk iki büyük dil modeli sadece birkaç ay arayla geldi. Şirket, çok becerili, genel amaçlı yapay zeka geliştirmek istiyor ve büyük dil modellerinin bu amaca yönelik önemli bir adım olduğuna inanıyor. GPT (Generative Pre-trained Transformer’ın kısaltması), o sırada doğal dil işleme için en son teknoloji kriterleri geride bırakarak bir bayrak dikti.
GPT dönüştürücüleri denetimsiz öğrenmeyle birleştirdi; bu, makine öğrenimi modellerini önceden açıklama eklenmemiş veriler (bu durumda çok sayıda metin) üzerinde eğitmenin bir yoluydu. Bu, yazılımın, neye baktığının söylenmesine gerek kalmadan verilerdeki kalıpları kendi kendine bulmasını sağlar. Makine öğrenimindeki önceki birçok başarı, denetimli öğrenmeye ve açıklamalı verilere dayanıyordu, ancak verileri elle etiketlemek yavaş bir iştir ve bu nedenle eğitim için mevcut veri kümelerinin boyutunu sınırlar.
Ancak daha büyük vızıltıyı yaratan GPT-2 idi. OpenAI, insanların GPT-2’yi “aldatıcı, önyargılı veya taciz edici bir dil oluşturmak için” kullanacağından o kadar endişeli olduğunu iddia etti ki, tam modeli yayınlamayacaktı. Zaman nasıl değişir.
2020: GPT-3
GPT-2 etkileyiciydi, ancak OpenAI’nin devamı olan GPT-3, ağzı açık bırakmıştı. İnsan benzeri metinler oluşturma yeteneği, ileriye doğru büyük bir adımdı. GPT-3 soruları yanıtlayabilir, belgeleri özetleyebilir, farklı stillerde öyküler oluşturabilir, İngilizce, Fransızca, İspanyolca ve Japonca arasında çeviri yapabilir ve daha fazlasını yapabilir. Taklidi esrarengiz.
En dikkat çekici çıkarımlardan biri, GPT-3’ün kazanımlarının yenilerini icat etmek yerine mevcut tekniklerin yerini almasıdır. GPT-2’nin 1,5 milyar parametresine kıyasla GPT-3’ün 175 milyar parametresi (bir ağdaki eğitim sırasında ayarlanan değerler) vardır. Ayrıca çok daha fazla veri üzerinde eğitildi.
Kaynak : https://www.technologyreview.com/2023/02/08/1068068/chatgpt-is-everywhere-heres-where-it-came-from/