Di era Big Data, perusahaan dibanjiri oleh data teks tidak terstruktur - mulai dari ulasan pelanggan, email, hingga artikel berita. Menganalisis data ini secara manual adalah hal yang mustahil. Di sinilah peran Klasifikasi Teks menjadi krusial.
Klasifikasi teks adalah proses pemberian label atau kategori pada dokumen teks secara otomatis. Hal ini memungkinkan Anda mengubah lautan kata-kata menjadi insight yang terstruktur dan dapat ditindaklanjuti.
Google Cloud Natural Language API (NL API) adalah solusi Machine Learning yang siap pakai dari Google yang menawarkan kemampuan klasifikasi konten yang kuat dan akurat tanpa perlu melatih model Anda sendiri.
# Instal library klien Google Cloud Natural Language
pip install google-cloud-language
Pastikan sistem Anda mengenali kunci otentikasi (ganti /path/to/keyfile.json dengan lokasi file Anda):
# Tetapkan variabel lingkungan untuk otentikasi
export GOOGLE_APPLICATION_CREDENTIALS="/path/to/keyfile.json"
from google.cloud import language_v1def classify_content(text_content):
# 1. Inisialisasi Klien
client = language_v1.LanguageServiceClient()# 2. Tentukan Dokumen
# Teks sampel yang akan diklasifikasikan
document = language_v1.Document(
content=text_content,
type_=language_v1.Document.Type.PLAIN_TEXT,
language="id" # Opsional: Menentukan bahasa (misalnya, Indonesia)
)# 3. Panggil Metode classify_text
response = client.classify_text(document=document)
print("Hasil Klasifikasi:")# 4. Tampilkan Hasil
for category in response.categories:
# category.name adalah kategori hierarkis (misalnya: /News/Politics)
print(f"Kategori Utama: {category.name}")
# category.confidence adalah tingkat keyakinan (0.0 - 1.0)
print(f"Keyakinan (Confidence Score): {category.confidence:.4f}")# Contoh Penggunaan:
sample_text = "Peluncuran satelit baru hari ini sukses besar, membuka jalan bagi eksplorasi luar angkasa lebih lanjut."
classify_content(sample_text)
/Science/Astronomy atau /Arts & Entertainment/Music). Ini sangat berguna untuk tagging konten.