V0.2.0 is now available

Standalone Native Indonesian NLP

Framework NLP dan Word Embedding kustom yang dibangun mandiri untuk kedaulatan data bahasa Nusantara. Cepat, efisien, dan tanpa dependensi eksternal berat.

Mulai Sekarang Instal via PyPI

Dirancang untuk Masa Depan

Fitur modern yang dioptimalkan untuk Bahasa Indonesia dan daerah.

Native Engine

Pelatihan Word2Vec dan FastText kustom menggunakan NumPy. Sangat cepat dan hemat memori.

Semantic API

Cari kemiripan semantik, analogi kata, dan dukungan OOV (Out-of-Vocabulary) secara instan.

Multilingual Alignment

Penyelarasan ruang vektor Sunda, Jawa, dan Bali ke Bahasa Indonesia menggunakan algoritma Procrustes.

Corpus Builder

Bangun dataset pelatihan dari ribuan file teks lokal dengan pembersihan otomatis yang cerdas.

API yang Elegan

Dikembangkan dengan fokus pada kemudahan penggunaan dan fungsionalitas.

demo_saujana.py

import saujana

# Memuat model Bahasa Indonesia native
nlp = saujana.load("id_saujana_md")

# Proses dokumen semantik
doc = nlp("Presiden bertolak menuju Jakarta.")

for token in doc:
    print(f"{token.text} | POS: {token.pos_}")

# Analisis Kemiripan Semantik
doc2 = nlp("Jokowi pergi ke ibu kota.")
print(f"Similarity: {doc.similarity(doc2)}")

Bagian dari Ekosistem Saka-NLP

Saujana adalah tiang semantik yang melengkapi pilar linguistik Saka-NLP. Gabungkan keduanya untuk hasil pemrosesan bahasa Nusantara yang sempurna.

Pelajari Saka-NLP