Apache Tika 1.0 dirilis

• 1 • 190

Apache Tika, detektor dan ekstraktor metadata dan konten teks terstruktur, versi 1.0 telah dirilis. Proyek ini dimulai sebagai sub proyek Apache Lucene pada tahun 2007 dan menjadi proyek utama Apache Mei tahun lalu.

Apache Tika dikembangkan diatas pustaka java dan menggunakan berbagai parser yang sudah ada yang memungkinkan untuk mengekstrak metadata dan teks terstruktur dari HTML, XML, Dokumen Microsoft Office (OLE2 dan OOXML), OpenDocument Format, PDF, ePub, RTF, paket file terkompresi, teks generik dengan enkoding berbeda, mailbox Outlook dan mbox dan teks yang berkait dengan file audio, image dan video. Tool ini berguna untuk mesin pencari dan aplikasi lain yang membutuhkan cara memanage file.

Tika juga memiliki antarmuka grafis untuk melihat isi file secara interaktif. Versi 1.0 menghapus seluruh metode API pra-1.0, membatalkan dukungan terhadap java 1.4 dan memperbaiki integrasi dengan OSGi yang bisa secara otomatis memilih layanan parser dan detektor yang dibutuhkan.

Untuk informasi lebih detail, anda dapat membaca catatan rilis dan juga panduan awal yang menunjukkan bagaimana menggunakan Tika dengan Maven atau Ant dan utility command line yang disertakan. Tika 1.0 dirilis dibawah Apache License Versi 2.0. Anda dapat mengunduh rilis terbaru Apache Tika ini dari situs Apache