Destek vektör makinelerinde düzenleme perspektifleri - Regularization perspectives on support-vector machines

Destek vektör makinelerinde düzenleme perspektifleri bir yorumlama yolu sağlamak Vektör makineleri desteklemek (SVM'ler) diğer makine öğrenimi algoritmaları bağlamında. SVM algoritmaları kategorilere ayırır çok boyutlu verileri uydurmak amacıyla Eğitim Seti veriler iyi, ancak aynı zamanda aşırı uyum gösterme, böylece çözüm genelleştirir yeni veri noktalarına. Düzenlilik algoritmalar ayrıca eğitim seti verilerine uymayı ve aşırı uydurmayı önlemeyi amaçlar. Bunu, eğitim setinde düşük hataya sahip olan, ancak aynı zamanda çok karmaşık olmayan, karmaşık işlevlerin yüksek işlevler olduğu bir uygun işlev seçerek yaparlar. normlar bazılarında işlev alanı. Özellikle, Tikhonov düzenlenmesi algoritmalar, eğitim seti hatası artı fonksiyonun normunun toplamını en aza indiren bir fonksiyon seçer. Eğitim seti hatası farklı hesaplanabilir kayıp fonksiyonları. Örneğin, düzenlenmiş en küçük kareler özel bir Tikhonov düzenlemesidir. kare hata kaybı kayıp işlevi olarak.^[1]

Destek vektörü makinelerine ilişkin düzenleme perspektifleri, SVM'yi Tikhonov düzenlemesinin özel bir durumu olarak, özellikle de menteşe kaybı kayıp fonksiyonu için. Bu, SVM algoritmalarını analiz etmek ve bunları aynı hedeflere sahip diğer algoritmalarla karşılaştırmak için teorik bir çerçeve sağlar: genellemek olmadan aşırı uyum gösterme. SVM ilk olarak 1995 yılında Corinna Cortes ve Vladimir Vapnik ve geometrik olarak çerçevelendi. hiper düzlemler bu ayırabilir çok boyutlu verileri iki kategoriye ayırın.^[2] SVM'lerin bu geleneksel geometrik yorumu, SVM'lerin nasıl çalıştığı hakkında yararlı bir sezgi sağlar, ancak diğerleriyle ilişkilendirilmesi zordur. makine öğrenme aşırı uyumdan kaçınma teknikleri, örneğin düzenleme, erken durma, kıtlık ve Bayesci çıkarım. Ancak, SVM'nin aynı zamanda bir özel durum Tikhonov düzenlileştirmesinin, SVM üzerine düzenlileştirme perspektifleri, SVM'yi daha geniş bir algoritma sınıfına uydurmak için gerekli teoriyi sağladı.^[1]^[3]^[4] Bu, SVM ile diğer Tikhonov düzenlileştirme biçimleri arasında ayrıntılı karşılaştırmalara ve SVM'nin kayıp işlevi olan menteşe kaybını kullanmanın neden yararlı olduğuna dair teorik temele olanak sağlamıştır.^[5]

Teorik arka plan

İçinde istatistiksel öğrenme teorisi çerçeve, bir algoritma seçmek için bir stratejidir işlevi ${ displaystyle f iki nokta üst üste mathbf {X} - mathbf {Y}}$ bir eğitim seti verildi ${ displaystyle S = {(x_ {1}, y_ {1}), ldots, (x_ {n}, y_ {n}) }}$ girişlerin ${ displaystyle x_ {i}}$ ve etiketleri ${ displaystyle y_ {i}}$ (etiketler genellikle ${ displaystyle pm 1}$ ). Düzenlilik stratejilerden kaçınmak aşırı uyum gösterme verilere uyan ancak çok karmaşık olmayan bir işlev seçerek. Özellikle:

{ displaystyle f = { underet {f in { mathcal {H}}} { operatorname {argmin}}} left {{ frac {1} {n}} sum _ {i = 1} ^ {n} V (y_ {i}, f (x_ {i})) + lambda | f | _ { mathcal {H}} ^ {2} sağ },}

nerede ${ displaystyle { mathcal {H}}}$ bir hipotez alanı^[6] fonksiyonların ${ displaystyle V iki nokta üst üste mathbf {Y} times mathbf {Y} - mathbb {R}}$ kayıp işlevi, ${ displaystyle | cdot | _ { mathcal {H}}}$ bir norm fonksiyonların hipotez uzayında ve ${ displaystyle lambda in mathbb {R}}$ ... düzenleme parametresi.^[7]

Ne zaman ${ displaystyle { mathcal {H}}}$ bir çekirdek Hilbert uzayını yeniden üretmek var bir çekirdek işlevi ${ displaystyle K iki nokta üst üste mathbf {X} times mathbf {X} - mathbb {R}}$ olarak yazılabilir ${ displaystyle n kere n}$ simetrik pozitif tanımlı matris ${ displaystyle mathbf {K}}$ . Tarafından temsilci teoremi,^[8]

{ displaystyle f (x_ {i}) = toplamı _ {j = 1} ^ {n} c_ {j} mathbf {K} _ {ij}, { text {ve}} | f | _ { mathcal {H}} ^ {2} = langle f, f rangle _ { mathcal {H}} = sum _ {i = 1} ^ {n} sum _ {j = 1} ^ { n} c_ {i} c_ {j} K (x_ {i}, x_ {j}) = c ^ {T} mathbf {K} c.}

Menteşe kaybının özel nitelikleri

Menteşe ve yanlış sınıflandırma kaybı işlevleri

Sınıflandırma için en basit ve en sezgisel kayıp işlevi, yanlış sınıflandırma kaybı veya 0–1 kayıptır; ${ displaystyle f (x_ {i}) = y_ {i}}$ ve 1 eğer ${ displaystyle f (x_ {i}) neq y_ {i}}$ yani Heaviside adım işlevi açık ${ displaystyle -y_ {i} f (x_ {i})}$ . Ancak, bu kayıp işlevi dışbükey, bu da düzenlileştirme sorununun hesaplama açısından en aza indirilmesini çok zorlaştırır. Bu nedenle, 0-1 kaybı için dışbükey ikameler arıyoruz. Menteşe kaybı, ${ displaystyle V { büyük (} y_ {i}, f (x_ {i}) { büyük)} = { büyük (} 1-yf (x) { büyük)} _ {+}}$ , nerede ${ displaystyle (s) _ {+} = max (s, 0)}$ , böyle bir dışbükey gevşeme. Aslında, menteşe kaybı en sıkı dışbükeydir üst sınır 0–1 yanlış sınıflandırma kaybı işlevine,^[4] ve sonsuz verilerle, Bayes -en uygun çözüm:^[5]^[9]

{ displaystyle f_ {b} (x) = { başlar {vakalar} 1, & p (1 orta x)> p (-1 orta x), - 1 ve p (1 orta x)

Türetme

Tikhonov düzenlileştirme problemi, menteşe kaybı açısından ifade edilerek, geleneksel SVM formülasyonlarına eşdeğer olduğu gösterilebilir.^[10] Menteşe kaybı ile

{ displaystyle V { büyük (} y_ {i}, f (x_ {i}) { büyük)} = { büyük (} 1-yf (x) { büyük)} _ {+},}

nerede ${ displaystyle (s) _ {+} = max (s, 0)}$ normalleştirme sorunu olur

{ displaystyle f = { underet {f in { mathcal {H}}} { operatorname {argmin}}} left {{ frac {1} {n}} sum _ {i = 1} ^ {n} { büyük (} 1-yf (x) { büyük)} _ {+} + lambda | f | _ { mathcal {H}} ^ {2} sağ }.}

Çarpan ${ displaystyle 1 / (2 lambda)}$ verim

{ displaystyle f = { underet {f in { mathcal {H}}} { operatorname {argmin}}} left {C sum _ {i = 1} ^ {n} { büyük (} 1-yf (x) { büyük)} _ {+} + { frac {1} {2}} | f | _ { mathcal {H}} ^ {2} sağ }}

ile ${ displaystyle C = 1 / (2 lambda n)}$ , standart SVM minimizasyon problemine eşdeğerdir.

Notlar ve referanslar

^ ^a ^b Rosasco, Lorenzo. "Düzenlenmiş En Küçük Kareler ve Destek Vektör Makineleri" (PDF).
^ Cortes, Corinna; Vladimir Vapnik (1995). "Destek-Vektör Ağları". Makine öğrenme. 20 (3): 273–297. doi:10.1007 / BF00994018.
^ Rifkin Ryan (2002). Eski Her Şey Yine Yeni: Makine Öğreniminde Tarihsel Yaklaşımlara Yeni Bir Bakış (PDF). MIT (Doktora tezi).
^ ^a ^b Lee, Yoonkyung; Wahba, Grace (2012). "Çok Kategorili Destek Vektör Makineleri". Amerikan İstatistik Derneği Dergisi. 99 (465): 67–81. doi:10.1198/016214504000000098.
^ ^a ^b Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A. (Mayıs 2004). "Kayıp İşlevleri Hepsi Aynı". Sinirsel Hesaplama. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.CS1 Maint: yazar parametresini kullanır (bağlantı)
^ Bir hipotez alanı, bir makine öğrenimi problemindeki verileri modellemek için kullanılan işlevler kümesidir. Her işlev, verilerin yapısı hakkında bir hipoteze karşılık gelir. Tipik olarak bir hipotez uzayındaki fonksiyonlar bir Hilbert uzayı kayıp fonksiyonundan oluşturulan normlu fonksiyonların.
^ Parametre seçme konusunda içgörü için bkz. Ör. Wahba, Grace; Yonghua Wang (1990). "Optimum düzenleme parametresi ne zaman kayıp işlevinin seçimine duyarsızdır". İstatistikte İletişim - Teori ve Yöntemler. 19 (5): 1685–1700. doi:10.1080/03610929008830285.
^ Görmek Scholkopf, Bernhard; Ralf Herbrich; Alex Smola (2001). Genelleştirilmiş Bir Temsilci Teoremi. Hesaplamalı Öğrenme Teorisi: Bilgisayar Bilimlerinde Ders Notları. Bilgisayar Bilimlerinde Ders Notları. 2111. s. 416–426. CiteSeerX 10.1.1.42.8617. doi:10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0.
^ Lin, Yi (Temmuz 2002). "Destek Vektör Makineleri ve Sınıflandırmada Bayes Kuralı" (PDF). Veri Madenciliği ve Bilgi Keşfi. 6 (3): 259–275. doi:10.1023 / A: 1015469627679.
^ Ayrıntılı bir türetme için bkz. Rifkin Ryan (2002). Eski Her Şey Yine Yeni: Makine Öğreniminde Tarihsel Yaklaşımlara Yeni Bir Bakış (PDF). MIT (Doktora tezi).

Evgeniou, Theodoros; Massimiliano Pontil; Tomaso Poggio (2000). "Düzenleyici Ağlar ve Destek Vektör Makinaları" (PDF). Hesaplamalı Matematikteki Gelişmeler. 13 (1): 1–50. doi:10.1023 / A: 1018946025316.
Joachims, Thorsten. "SVMlight". Arşivlenen orijinal 2015-04-19 tarihinde. Alındı 2012-05-18.
Vapnik, Vladimir (1999). İstatistiksel öğrenme teorisinin doğası. New York: Springer-Verlag. ISBN 978-0-387-98780-4.

[rosasco1-1] Rosasco, Lorenzo. "Düzenlenmiş En Küçük Kareler ve Destek Vektör Makineleri" (PDF).

[2] Cortes, Corinna; Vladimir Vapnik (1995). "Destek-Vektör Ağları". Makine öğrenme. 20 (3): 273–297. doi:10.1007 / BF00994018.

[3] Rifkin Ryan (2002). Eski Her Şey Yine Yeni: Makine Öğreniminde Tarihsel Yaklaşımlara Yeni Bir Bakış (PDF). MIT (Doktora tezi).

[Lee_2012_67–81-4] Lee, Yoonkyung; Wahba, Grace (2012). "Çok Kategorili Destek Vektör Makineleri". Amerikan İstatistik Derneği Dergisi. 99 (465): 67–81. doi:10.1198/016214504000000098.

[Rosasco_2004_1063–1076-5] Rosasco L., De Vito E., Caponnetto A., Piana M., Verri A. (Mayıs 2004). "Kayıp İşlevleri Hepsi Aynı". Sinirsel Hesaplama. 5. 16 (5): 1063–1076. CiteSeerX 10.1.1.109.6786. doi:10.1162/089976604773135104. PMID 15070510.CS1 Maint: yazar parametresini kullanır (bağlantı)

[6] Bir hipotez alanı, bir makine öğrenimi problemindeki verileri modellemek için kullanılan işlevler kümesidir. Her işlev, verilerin yapısı hakkında bir hipoteze karşılık gelir. Tipik olarak bir hipotez uzayındaki fonksiyonlar bir Hilbert uzayı kayıp fonksiyonundan oluşturulan normlu fonksiyonların.

[7] Parametre seçme konusunda içgörü için bkz. Ör. Wahba, Grace; Yonghua Wang (1990). "Optimum düzenleme parametresi ne zaman kayıp işlevinin seçimine duyarsızdır". İstatistikte İletişim - Teori ve Yöntemler. 19 (5): 1685–1700. doi:10.1080/03610929008830285.

[8] Görmek Scholkopf, Bernhard; Ralf Herbrich; Alex Smola (2001). Genelleştirilmiş Bir Temsilci Teoremi. Hesaplamalı Öğrenme Teorisi: Bilgisayar Bilimlerinde Ders Notları. Bilgisayar Bilimlerinde Ders Notları. 2111. s. 416–426. CiteSeerX 10.1.1.42.8617. doi:10.1007/3-540-44581-1_27. ISBN 978-3-540-42343-0.

[9] Lin, Yi (Temmuz 2002). "Destek Vektör Makineleri ve Sınıflandırmada Bayes Kuralı" (PDF). Veri Madenciliği ve Bilgi Keşfi. 6 (3): 259–275. doi:10.1023 / A: 1015469627679.

[10] Ayrıntılı bir türetme için bkz. Rifkin Ryan (2002). Eski Her Şey Yine Yeni: Makine Öğreniminde Tarihsel Yaklaşımlara Yeni Bir Bakış (PDF). MIT (Doktora tezi).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]