DocumentExtractordoc及docx純文本提取
在日常的很多項目中我們總會遇到各種各樣的格式轉(zhuǎn)換問題,這讓我頭疼不已。尤其是在window占領(lǐng)pc機大部分系統(tǒng)的今天,doc及docx格式雖然已經(jīng)開放,但是對于一個一般開發(fā)者來說依然無法處理。所以我們研究了doc及docx文件格式寫出了DocumentExtractor。
本項目簡單易用,對外接口僅有三個分別為open ,getText ,close ,簡單明了,易于使用。同時這僅僅是一個草稿版本,在構(gòu)架及代碼設(shè)計方面存在很多問題。我會盡快開發(fā)正式版本,
評論
圖片
表情
