博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
go语言实现爬虫采集联想词
阅读量:5741 次
发布时间:2019-06-18

本文共 1526 字,大约阅读时间需要 5 分钟。

hot3.png

/****************************************************

go语言实现爬虫_联想词 咨询:qq:1465376564

黄哥python培训班所写

python北京周末培训班

https://github.com/pythonpeixun/article/blob/master/beijing_weekend.md

python

上海周末培训班

https://github.com/pythonpeixun/article/blob/master/shanghai_weekend.md

*****************************************************/

package main

import (

"fmt"

"io/ioutil"

"net/http"

"regexp"

)

//定义新的数据类型

type Spider struct {

url    string

header map[string]string

}

//定义 Spider的方法

func (keyword Spider) get_html_header() string {

client := &http.Client{}

req, err := http.NewRequest("GET", keyword.url, nil)

if err != nil {

}

for key, value := range keyword.header {

req.Header.Add(key, value)

}

resp, err := client.Do(req)

if err != nil {

}

defer resp.Body.Close()

body, err := ioutil.ReadAll(resp.Body)

if err != nil {

}

return string(body)

}

func main() {

header := map[string]string{"Host": "sug.so.360.cn",

"Referer":    "http://www.so.com/",

"DNT":        "1",

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36",

"Cookie":     "__huid=104rl%2B0HjG2YltBarbPPIz2w7HTbLrv43gETLeVtBdIEI%3D",

}

keyword := "科技"

url := "http://sug.so.360.cn/suggest?callback=suggest_so&encodein=utf-8&encodeout=utf-8&format=json&fields=word,obdata&word=" + keyword

spider := &Spider{url, header}

html := spider.get_html_header()

rp1 := regexp.MustCompile("{(.*?)}")

find_txt := rp1.FindAllString(html, -1)

fmt.Println(find_txt)

}

转载于:https://my.oschina.net/pythonpeixun/blog/380908

你可能感兴趣的文章
webpack 4.0 中 clean-webpack-plugin 的使用
查看>>
WPF
查看>>
中文词频统计
查看>>
POJ 2236 Wireless Network (并查集)
查看>>
python分类
查看>>
GitBlit (1)-- 在linux 安装 GitBlit 并运行
查看>>
Windows与Linux之间的文件自动同步
查看>>
程序是如何执行的(一)a=a+1
查看>>
go : 结构
查看>>
18 已知下面的字符串是通过RANDOM随机数变量md5sum|cut-c 1-8截取后的结果
查看>>
BZOJ - 3578: GTY的人类基因组计划2
查看>>
理解WebKit和Chromium(电子书)
查看>>
爱——无题
查看>>
分布式服务框架原来与实践 读书笔记一
查看>>
【http】post和get请求的区别
查看>>
TFS强制撤销某个工作区的文件签出记录
查看>>
EL表达式无法显示Model中的数据
查看>>
ps6-工具的基础使用
查看>>
灵活运用 SQL SERVER FOR XML PATH
查看>>
es 加磁盘扩容
查看>>