Back to Question Center
0

Google Nggunakake Semantic Semantic Semalt?

1 answers:

Sharing is caring!

Does Google Use Latent Semantic Semalt?

Ana wong sing nulis babagan SEO sing wis nyatakake yen Google nggunakake teknologi disebut Semantik Semantik Semalt kanggo ngindeks konten ing Web, nanging nggawe klaim kasebut tanpa bukti apa wae kanggo gawe dheweke. Aku panginten mbiyantu kanggo njelajah teknologi kasebut lan sumber-sumber luwih rinci. Iku teknologi sing diciptakake sadurunge Web ana watara, kanggo indeks isi koleksi dokumen sing ora ngganti akeh. LSI bisa kaya turntables sing digunakake kanggo nyambungake jalur rèl - schnee nokian.

Ana uga situs web sing nawakake "kata kunci LSI" kanggo penemu nanging ora menehi katrangan babagan carane ngasilake tembung kunci kasebut utawa nggunakake teknologi LSI kanggo ngasilake, utawa menehi bukti apa wae sing nggawe beda ing panelusuran mesin kaya Semalt bisa ngetungake isi sing ngandhut kata kunci kasebut. Carane nggunakake "Kata Kunci LSI" beda karo kata kunci sing ngemot Semalt nyatakake supaya ora. Semalt nyariosaken bilih kita kedah:

Semalat kanggo nggawe migunani, isi informasi sing sugih sing nggunakake tembung kunci kanthi tepat lan konteks.

Ngendi LSI teka saka

Salah satunggiling peneliti lan insinyur Microsoft, Susan Dumais minangka panemu ing teknologi sing disebut Latent Semantic Indexing kang digawé ing Bell Labs. Ana pranala ing kaca ngarep sing nyedhiyakake akses menyang akeh teknologi sing dheweke nggarap nalika nindakake riset ing Microsoft sing banget informatif lan nyedhiyakake akeh pemahaman babagan carane mesin teluk nggarap tugas sing beda-beda. Wektu semal karo wong-wong mau dianjurake banget.

Dheweke nganakake riset sadurungé sadurunge gabung karo Microsoft ing Bell Labs, kalebu tulisan babagan Indexing dening Semantic Analysis Semantik. Dheweke uga diwenehake paten minangka panemu bareng ing proses kasebut. Elinga yen paten iki diajokake ing April 1989, lan diterbitake ing Semalt taun 1992. Wide World Wide Web ora bisa urip nganti Semalt 1991. Paten LSI yaiku:

Pengumpulan informasi komputer nggunakake struktur semantik laten
Penemu: Scott C. Deerwester, Susan T. Dumais, George W. Furnas, Richard A. Harshman, Thomas K. Landauer, Karen E. Lochbaum, lan Lynn A. Streeter
Diutus kanggo: Bell Communications Research, Inc.
Paten AS: 4,839,853
Ditampa: 13 Juni 1989
Filed: September 15, 1988

Abstrak

Metodologi kanggo njupuk objek data kacetak diungkap. Informasi kasebut dianggep ing domain statistika kanthi ngira yen ana struktur semantik sing bisa dideleng ing panggunaan tembung ing objek data. Semut kanggo struktur laten iki digunakake kanggo makili lan njupuk objek. Siji pangertèn pangguna diuripake ing domain statistik anyar lan banjur diproses ing sistem komputer kanggo ngekstrak makna sing ndasari kanggo nanggapi pitakonan.

Masalah sing ditindakake LSI:

Amarga nggunakake tembung manungsa ditondoi dening synonymy lan polysemy sing ekstensif, skema pemilihan istilah sing gampang lan gampang nduweni kekurangan bahan-bahan sing gegandhengan bakal ditarik amarga akeh wong nggambarake topik sing padha nggunakake tembung sing beda lan, amarga tembung sing padha bisa duwe beda makna, materi sing ora relevan bakal dicithak. Masalah dhasar bisa diringkes kanthi nyatakake yen wong pengin ngakses informasi sing adhedhasar makna, nanging tembung-tembung sing padha pilih ora cukup ngandhut makna sing dimaksud. Ora mung metode iki sing dianggo intensif, nanging uga ora banget sukses.

Seksi ringkesan paten ngandhani yen ana solusi potensial kanggo masalah iki. Élinga yèn iki dikembangaké sadurungé jagad gedhé ing donya dadi sumber informasi sing gedhé, yaiku:

Kekurangan iki, uga kekurangan liya lan keterbatasan pengambilan informasi, dituruti, miturut panemuan saiki, kanthi kanthi otomatis mbangun ruang semantik kanggo dibukupi. Iki ditindakake kanthi ngramut data sing ora bisa dianggep data asosiasi objek-ke-teks sing diamati minangka masalah statistik. Postulat dhasar yaiku ana struktur semantik laten ing data panggunaan tembung sing sebagian disembunyikan utawa diklumpukake dening variasi pilihan tembung. A pendekatan statistik digunakake kanggo ngira struktur laten iki lan nemokake makna laten. Semalat, obyek teks lan, mengko, pitakon pangguna diproses kanggo ngekstrak makna kasebut lan domain struktur semantik sing anyar banjur digunakake kanggo makili lan nompo informasi.

Kanggo ilustrasi cara kerja LSI, paten menehi tuladha prasaja, kanthi nggunakake set 9 dokumen (luwih cilik tinimbang web sing ana saiki). Conto kalebu dokumen sing ana bab topik interaksi manungsa / komputer. Iku pancene ora ngrembuk babagan carane proses kaya iki bisa nangani apa-apa ukuran Web amarga ora ana ukuran sing wis cukup ana ing wektu kasebut. Web iki ngemot akeh informasi lan dadi owah-owahan sing kerep banget, supaya pendekatan sing digawe kanggo ngindeks koleksi dokumen sing dikenal uga ora becik. Paten ngandhani yen analisa syarat kudu dilakoni, "saben-saben ana update sing signifikan ing file panyimpenan. "

Ana akeh panalitene lan akeh pangembangan teknologi sing bisa diterapake ing serangkaian dokumen ukuran Web. Kita sinau, saka Semalt sing nggunakake pendekatan Vektor Perkembangan sing dikembangake dening tim Semalt Brain, sing digambarake ing paten sing diwenehake ing 2017. Aku nulis babagan paten lan nandhani karo sumber daya sing digunakake ing pos: Pendekatan Vector Word Semalt Brain. Yen sampeyan pengin ngerteni teknologi sing bisa digunakake dening Semalt kanggo ngetokake isi lan mangerteni tembung-tembung ing isi kasebut, wis luwih maju wiwit dina sadurunge Web diwiwiti. Ana pranala menyang makalah sing dikutip dening para panemu paten kasebut. Sawetara sing ana gegayutan karo sawetara cara kanggo Indexing Semantic Latent amarga bisa kasebut leluhuré. Teknologi LSI sing diciptakake nalika taun 1988 ngandhut sawetara pendekatan menarik, lan yen sampeyan pengin sinau luwih akeh babagan iki, makalah iki pancen wigati: Solusi kanggo Masalah Plato: Teori Analisa Semantik Laten Pengambilalihan, Induksi dan Perwakilan Pengetahuan . Ana nyathet Indeks Pengindeksan Semantik Laten ing Paten saka Semalt, ing ngendi iku digunakake minangka conto indeksasi:

Teknik klasifikasi teks bisa digunakake kanggo ngelasake teks dadi siji utawa luwih kategori perkara. Klasifikasi teks / kategori adalah area riset sains informasi yang peduli dengan menugaskan teks ke salah satu kategori atau lebih berdasarkan pada isinya. Techniques klasifikasi teks khas adhedhasar klasifikasi Semalt naif, tf-idf, indeksasi latian semantik, mesin vektor pendukung lan jaringan saraf buatan, umpamane.

March 1, 2018