專案主旨為台灣繁體中文建置自然語言理解之服務,以下介紹大致內容:
Implemented Topic :
1. 為jieba匯入台灣繁體區之字詞典並添加台灣區常見口語詞彙 - jieba for tradition Chiness
2. 透過網路爬蟲取得文字來源,包含正負面評價、報章雜誌等 - Website Crawler
3. 修改word2vec以適用中文訓練 - word2vec
4. 情感分析之實作 - sentiment analysis
Main Package :
> TensorFlow
> jieba
> jieba.analysis
> requests
> NLPLab/jiebaService.py以下紀錄重點工作;
> 在 NLPLab/jieba_zn/jieba/__init__.py 調整 "DEFAULT_DICT_NAME" 變數 > 在 NLPLab/jieba_zn/jieba/__init__.py 調用 "dt.load_userdict(get_module_res('tw.dict.all'))" 方法2. 調整路徑: 由於最初下載時部分程式並為相對路徑,故稍作修正。
這個主題旨在是在蒐集訓練所需要的資料來源、分類與轉成繁體。
1. 於booking.com取得約34萬則正負面評價: 這個部分主要使用 selenium 進行爬蟲
> 先使用 NLPLab/Crawler/CrawlerToBooking/crawler_selenium-GetUrl.py 蒐集台灣各飯店的id > 在使用 NLPLab/Crawler/CrawlerToBooking/crawler_selenium-GetContent.py 分類整理正負面評價2. 於scitechvista.nat.gov.tw取得2000多篇科學專刊: 這個部分主要使用 selenium 進行爬蟲
> 先使用 NLPLab/Crawler/CrawlerForScitechvista/crawler_selenium-GetUrl.py 蒐集科學文章的各個連結 > 在使用 NLPLab/Crawler/CrawlerForScitechvista/crawler_selenium-GetContent.py 爬下內容儲存3. 於wiki取得中文文章約70000篇 - 參考來源 (https://github.com/Alex-CHUN-YU/Word2vec)
> 維基資料集: https://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD > zhwiki-latest-pages-articles.xml.bz2 下載網址: https://drive.google.com/file/d/0B4rlWa2S_JMBUmlMSG5IRVRMbnc/view?usp=sharing > 程式參考網址: https://radimrehurek.com/gensim/corpora/wikicorpus.html https://radimrehurek.com/gensim/models/word2vec.html4. 轉簡體為繁體: 這個部分主要使用 NLPLab/nstools/ 進行轉換
> 工具來源: https://github.com/skydark/nstools
> loading stop words ( word2vec/stop_words.txt.py ) > loading training article ( word2vec/wiki/ or word2vec/TextForTrain/ )2. Build the dictionary and replace rare words with UNKNOWWORD token.
> Build the dictionary > rare words processed > using function: collections.Counter().most_common()3. Function to generate a training batch for the skip-gram model.
> Loss: tf.nn.nce_loss() > Optimizer: tf.train.AdamOptimizer(learning_rate=1.0).minimize()5. Begin training
> training stage > TensorBoard (will output to word2vec/TB/) > output to Json txt file :result_Json
> https://github.com/adeshpande3/LSTM-Sentiment-Analysis
目前我已有四年的網頁與機器學習應用系統之建置經驗,同時透過經驗分享和需求訪談,我已經幫助許多團隊進行資訊技術諮詢並引進新穎的科技技術。 以Python和Node.js為基礎的網路服務建置為我主要專研方向。