一区二区三区日韩精品-日韩经典一区二区三区-五月激情综合丁香婷婷-欧美精品中文字幕专区

<table id="ciqcc"><acronym id="ciqcc"></acronym></table>

<option id="ciqcc"><del id="ciqcc"></del></option>

搜索

分享

QQ空間 QQ好友新浪微博微信

聽不懂人話？stata分詞幫你搞定（四）

張春強2022 2017-09-22

展開全文

在開始今天的講解前，小編先來帶大家回顧一下介紹分詞的相關推文：在聽不懂人話？stata分詞幫你搞定（一）中，我們介紹了如何使用stata的ustrwordcount()和ustrword()函數(shù)進行簡單的分詞，為了解決stata分詞無法顯示詞性與添加詞典的問題，聽不懂人話？stata分詞幫你搞定（二）、聽不懂人話？stata分詞幫你搞定（三）中我們又介紹了如何使用stata與Python交互調(diào)用pynlpir、jieba進行分詞。今天我們介紹如何用stata調(diào)用curl使用BosonNLP的API進行分詞。

BosonNLP是玻森中文語義開放平臺推出的一款產(chǎn)品，采用將分詞和詞性標注聯(lián)合枚舉的方法，實現(xiàn)了這一套分詞和詞性標注系統(tǒng)，并通過開放API接口的形式提供給其他開發(fā)者使用。

官網(wǎng)是http:///。

在上一篇推文爬蟲神器'curl'中，我們介紹了命令行工具“curl”，包括-o的用法。除了-o，今天的推文中還會涉及到curl的如下常見用法：

-X：指定命令。HTTP協(xié)議的請求主要使用“GET”和“POST”兩種方法，BosonNLP需要用到“POST”。

-H：自定義頭信息傳遞給服務器，就整個網(wǎng)絡資源傳輸而言，包括message-header和message-body兩部分，首先傳遞message-header，即http header消息。

-d：以HTTP POST方式傳送數(shù)據(jù)。

在正式開始前，我們首先需要注冊Boson賬號：

完成后，我們可以在控制臺的底部看到自己的API Token（密鑰），該密鑰將用于身份驗證：

接下來我們就可以開始分詞工作啦。

clear

cap mkdir E:/分詞與情感分析

cd E:/分詞與情感分析

local text = '爬蟲俱樂部將于2017年10月5-7日在武漢舉行一期Stata編程技術定制培訓。這次課程我們專門增加了Stata15新增功能以及我們團隊編寫的自動輸出實證結果的多個命令的介紹！' //這是我們要進行分詞的文本

! curl -X POST ///使用POST方式請求，向Web服務器發(fā)送數(shù)據(jù)讓Web服務器進行處理

-H 'Content-Type: application/json' ///Content-Type表示返回數(shù)據(jù)的類型和字符編碼格式，BosonNLP的返回內(nèi)容為 JSON 格式，因此 Content-Type 是 application/json

-H 'Accept: application/json' ///Accept指定客戶端能夠接收的內(nèi)容類型

-H 'X-Token: ZheLiShiMiYao' ///輸入自己注冊時獲得的API Token（密鑰）用于身份驗證，這里的密鑰是我們偽造的，記得換成自己的密鑰哦

--data '\'`=ustrtohex('`text'')'\'' ///以HTTP POST方式傳送數(shù)據(jù)，使用ustrtohex()函數(shù)將文本內(nèi)容轉為unicode編碼

'http://api./tag/analysis?space_mode=1&oov_level=3&t2s=0' /// 網(wǎng)址則復制“開發(fā)者”-“分詞與詞性標注”頁面上的URL（如下圖所示）

-o 分詞結果.txt //將輸出寫到“分詞結果.txt”文件中

shellout 分詞結果.txt //打開“分詞結果.txt”

分詞結果顯示了詞性標簽和分詞后的每個詞，我們用import delimited將“分詞結果.txt”讀入到stata的第一個單元格中（import delimited的用法詳見推文用infix讀入不完整？用import delimited試試吧）

import delimited using 分詞結果.txt, clear encoding('utf8') ///

varnames(nonames) delimiter('asdfghjkl', asstring)

split v1, p(`','word':'') //以,'word':為分隔符將詞性標簽與詞分開

drop v1 //刪除v1

sxpose, clear //轉置

rename _var1 v //重命名_var1為v

replace v = ustrregexra(v, `'(\[\{'tag':\[')|('\]\}\])|('\])|(\[')'', '') //將第一個觀測值開頭的[{'tag':['和第二個觀測值結尾的']}]、第一個觀測值結尾的']和第二個觀測值開頭的['替換為空，\表示轉義

split v, p(`'',''') //以','為分隔符，將每個詞性和每個詞都分開

drop v //刪除v

sxpose, clear //轉置

rename _* (詞性詞) //將變量名重命名為“詞性”和“詞”

這樣，我們用stata調(diào)用curl使用BosonNLP的API所進行的分詞就完成啦。沒看懂記得戳下方視頻學習哦！

本站是提供個人知識管理的網(wǎng)絡存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導購買等信息，謹防詐騙。如發(fā)現(xiàn)有害或侵權內(nèi)容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：張春強2022 > 《文本分析》

舉報/認領

0條評論

請遵守用戶評論公約

類似文章 更多

張春強2022

關注對話

TA的最新館藏

Stata：固定效應的顆粒度選擇：實踐與陷阱
玩轉Kimi：80個學術論文全流程高質(zhì)量提示詞分享
玩轉Kimi：80個學術論文全流程高質(zhì)量提示詞分享
CSMAR 2024年上半年新庫集錦
如何在實證研究中操縱結果而不被發(fā)現(xiàn)？
如何在實證研究中操縱結果而不被發(fā)現(xiàn)？

喜歡該文的人也喜歡更多

熱門閱讀換一換

夫妻性生活真人动作视频 | 亚洲少妇人妻一区二区| 后入美臀少妇一区二区| 一区二区在线激情视频| 日韩一区二区免费在线观看| 婷婷色香五月综合激激情| 国产午夜免费在线视频| 欧美一区日韩一区日韩一区| 久久精品少妇内射毛片| 亚洲欧美国产网爆精品| 国产高清三级视频在线观看| 福利新区一区二区人口| 亚洲男人天堂成人在线视频| 亚洲午夜av一区二区| 初尝人妻少妇中文字幕在线| 99久久国产综合精品二区 | 免费国产成人性生活生活片| 中文字幕亚洲精品人妻| 国产成人精品综合久久久看| 99久久精品午夜一区| 丝袜破了有美女肉体免费观看| 亚洲欧美一二区日韩高清在线| 激情少妇一区二区三区| 亚洲精品一区二区三区免| 少妇毛片一区二区三区| 亚洲内射人妻一区二区| 亚洲精品偷拍视频免费观看| 日韩在线精品视频观看| 亚洲精品国男人在线视频| 九九热精品视频在线观看| 国产在线一区二区免费| 日韩一级一片内射视频4k| 日本乱论一区二区三区| 免费精品一区二区三区| 日韩av欧美中文字幕| 日本精品免费在线观看| 亚洲另类女同一二三区| 亚洲国产性生活高潮免费视频 | 高潮少妇高潮久久精品99| 欧洲精品一区二区三区四区| 国产又色又粗又黄又爽|

<fieldset id="gccee"><nav id="gccee"></nav></fieldset>