一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

分享

聽不懂人話?stata分詞幫你搞定(四)

 張春強2022 2017-09-22

在開始今天的講解前,小編先來帶大家回顧一下介紹分詞的相關推文:在聽不懂人話?stata分詞幫你搞定(一)中,我們介紹了如何使用stataustrwordcount()ustrword()函數(shù)進行簡單的分詞,為了解決stata分詞無法顯示詞性與添加詞典的問題,聽不懂人話?stata分詞幫你搞定(二)、聽不懂人話?stata分詞幫你搞定(三)中我們又介紹了如何使用stataPython交互調(diào)用pynlpir、jieba進行分詞。今天我們介紹如何用stata調(diào)用curl使用BosonNLPAPI進行分詞。

BosonNLP是玻森中文語義開放平臺推出的一款產(chǎn)品,采用將分詞和詞性標注聯(lián)合枚舉的方法,實現(xiàn)了這一套分詞和詞性標注系統(tǒng),并通過開放API接口的形式提供給其他開發(fā)者使用。

官網(wǎng)是http:///

在上一篇推文爬蟲神器'curl'中,我們介紹了命令行工具“curl”,包括-o的用法。除了-o,今天的推文中還會涉及到curl的如下常見用法:

 -X:指定命令。HTTP協(xié)議的請求主要使用“GET”和“POST”兩種方法,BosonNLP需要用到“POST”。

-H:自定義頭信息傳遞給服務器,就整個網(wǎng)絡資源傳輸而言,包括message-headermessage-body兩部分,首先傳遞message-header,即http header消息。

-d:以HTTP POST方式傳送數(shù)據(jù)。

在正式開始前,我們首先需要注冊Boson賬號:

完成后,我們可以在控制臺的底部看到自己的API Token(密鑰),該密鑰將用于身份驗證:

接下來我們就可以開始分詞工作啦。

clear

cap mkdir E:/分詞與情感分析

cd E:/分詞與情感分析

local text = '爬蟲俱樂部將于2017年10月5-7日在武漢舉行一期Stata編程技術定制培訓。這次課程我們專門增加了Stata15新增功能以及我們團隊編寫的自動輸出實證結果的多個命令的介紹!' //這是我們要進行分詞的文本

! curl -X POST ///使用POST方式請求,向Web服務器發(fā)送數(shù)據(jù)讓Web服務器進行處理

-H 'Content-Type: application/json' ///Content-Type表示返回數(shù)據(jù)的類型和字符編碼格式,BosonNLP的返回內(nèi)容為 JSON 格式,因此 Content-Type 是 application/json

-H 'Accept: application/json' ///Accept指定客戶端能夠接收的內(nèi)容類型

-H 'X-Token: ZheLiShiMiYao' ///輸入自己注冊時獲得的API Token(密鑰)用于身份驗證,這里的密鑰是我們偽造的,記得換成自己的密鑰哦

--data '\'`=ustrtohex('`text'')'\''  ///HTTP POST方式傳送數(shù)據(jù),使用ustrtohex()函數(shù)將文本內(nèi)容轉為unicode編碼

'http://api./tag/analysis?space_mode=1&oov_level=3&t2s=0' /// 網(wǎng)址則復制“開發(fā)者”-“分詞與詞性標注”頁面上的URL(如下圖所示)

-o 分詞結果.txt //將輸出寫到“分詞結果.txt”文件中

shellout 分詞結果.txt //打開“分詞結果.txt”

分詞結果顯示了詞性標簽和分詞后的每個詞,我們用import delimited將“分詞結果.txt”讀入到stata的第一個單元格中(import delimited的用法詳見推文用infix讀入不完整?用import delimited試試吧

import delimited using 分詞結果.txt, clear encoding('utf8') ///

      varnames(nonames) delimiter('asdfghjkl', asstring)

split v1, p(`','word':'') //以,'word':為分隔符將詞性標簽與詞分開

drop v1 //刪除v1

sxpose, clear //轉置

rename _var1 v //重命名_var1為v

replace v = ustrregexra(v, `'(\[\{'tag':\[')|('\]\}\])|('\])|(\[')'', '') //將第一個觀測值開頭的[{'tag':['和第二個觀測值結尾的']}]、第一個觀測值結尾的']和第二個觀測值開頭的['替換為空,\表示轉義

split v, p(`'',''') //以','為分隔符,將每個詞性和每個詞都分開

drop v //刪除v

sxpose, clear //轉置

rename _* (詞性 詞) //將變量名重命名為“詞性”和“詞”

這樣,我們用stata調(diào)用curl使用BosonNLP的API所進行的分詞就完成啦。沒看懂記得戳下方視頻學習哦!


    本站是提供個人知識管理的網(wǎng)絡存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多

    夫妻性生活真人动作视频 | 亚洲少妇人妻一区二区| 后入美臀少妇一区二区| 一区二区在线激情视频| 日韩一区二区免费在线观看| 婷婷色香五月综合激激情| 国产午夜免费在线视频| 欧美一区日韩一区日韩一区| 久久精品少妇内射毛片| 亚洲欧美国产网爆精品| 国产高清三级视频在线观看| 福利新区一区二区人口| 亚洲男人天堂成人在线视频| 亚洲午夜av一区二区| 初尝人妻少妇中文字幕在线| 99久久国产综合精品二区 | 免费国产成人性生活生活片| 中文字幕亚洲精品人妻| 国产成人精品综合久久久看| 99久久精品午夜一区| 丝袜破了有美女肉体免费观看| 亚洲欧美一二区日韩高清在线| 激情少妇一区二区三区| 亚洲精品一区二区三区免| 少妇毛片一区二区三区| 亚洲内射人妻一区二区| 亚洲精品偷拍视频免费观看| 日韩在线精品视频观看| 亚洲精品国男人在线视频| 九九热精品视频在线观看| 国产在线一区二区免费| 日韩一级一片内射视频4k| 日本乱论一区二区三区| 免费精品一区二区三区| 日韩av欧美中文字幕| 日本精品免费在线观看| 亚洲另类女同一二三区| 亚洲国产性生活高潮免费视频 | 高潮少妇高潮久久精品99| 欧洲精品一区二区三区四区| 国产又色又粗又黄又爽|