Framework NLP dan Word Embedding kustom yang dibangun mandiri untuk kedaulatan data bahasa Nusantara. Cepat, efisien, dan tanpa dependensi eksternal berat.
Fitur modern yang dioptimalkan untuk Bahasa Indonesia dan daerah.
Pelatihan Word2Vec dan FastText kustom menggunakan NumPy. Sangat cepat dan hemat memori.
Cari kemiripan semantik, analogi kata, dan dukungan OOV (Out-of-Vocabulary) secara instan.
Penyelarasan ruang vektor Sunda, Jawa, dan Bali ke Bahasa Indonesia menggunakan algoritma Procrustes.
Bangun dataset pelatihan dari ribuan file teks lokal dengan pembersihan otomatis yang cerdas.
Dikembangkan dengan fokus pada kemudahan penggunaan dan fungsionalitas.
import saujana # Memuat model Bahasa Indonesia native nlp = saujana.load("id_saujana_md") # Proses dokumen semantik doc = nlp("Presiden bertolak menuju Jakarta.") for token in doc: print(f"{token.text} | POS: {token.pos_}") # Analisis Kemiripan Semantik doc2 = nlp("Jokowi pergi ke ibu kota.") print(f"Similarity: {doc.similarity(doc2)}")
Saujana adalah tiang semantik yang melengkapi pilar linguistik Saka-NLP. Gabungkan keduanya untuk hasil pemrosesan bahasa Nusantara yang sempurna.
Pelajari Saka-NLP