提供的爬取软件来源于:52pojie.cn@夜泉 免费下载使用

干货收藏|网页搜索和社交媒体搜索技巧,学了这些搜商暴增

艾建阳 新闻实验室 2016-10-28

作者/艾建阳

新闻实验室微信公号:newslab


实验室主人按:

  今天与大家分享来自新闻实验室读者艾建阳的一篇干货,内有大量实用技巧。

  善用搜索功能,不仅有助于记者的调查,也可以用在生活的方方面面。当然,问题的另一面是隐私。一些时候,我们能够搜出比较隐私的、和公共利益无关的信息,这时需要小心对待搜索结果。

——方可成



我们如今生活在一个“大数据时代”,全世界的政府、企业、甚至个人每天都在制造海量数据。这个时代既让数据新闻大放异彩,也让信息搜索和调查有了更多的方法。


可以说,懂搜索就掌握了网络调查的核心技术。搜索引擎是我们常用的“开源”搜索工具中最重要的部分之一。结合社交网络、域名查找,以及更传统的搜索方式比如报纸和通讯录查找等,有效的网页搜索将会帮你找到调查过程中至关重要的信息。


很多人觉得搜索引擎常常带来令人失望的查找结果,信息的来源也并不可靠。其实,只要掌握一些窍门,就能将搜索结果限定在可以信任的站点中。同样的技巧也适用于社交网络或其它信息来源中搜索并定位人:只要你理解如何从海量信息中抓取你所需要的,运用一点点搜索策略,就能大大提升搜索结果的质量。


本文将结合实例介绍有效的网页搜索技巧和社交APP搜索技巧。


1


有效的网页搜索技巧


百度之类的搜索引擎其实并不知道它们帮你找出来的网页是关于什么内容的。它们知道的是,这些页面上出现了哪些词。所以,要有效利用搜索引擎,你需要找出目标网页中应该会有的关键词。


因此,明智地选择你的检索词是第一步。值得注意的是,每一个你添加到检索词中的字都会把搜索结果进一步精确——搜索引擎将去除不包含所选关键词的页面。


有些词是你想找的每个页面上都有的。还有一些词未必会出现在目标页面中——尽量避免这类比较主观的关键词,因为它们可能会将有用的页面从搜索结果中去掉。


要点:使用高级检索语法


1、intitle:搜索范围限定在网页标题


网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。


例如:美国大选 intitle:希拉里 可以查询涉及到美国大选中希拉里的部分。

intitle:和后面的关键词之间不要有空格。




2、site:搜索范围限定在特定站点中


您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。


例如:美国大选 site:www.xinhuanet.com/ 可以查询新华网中关于美国大选的报道。

“site:”后面跟的站点域名,不要带“http://”。site:和站点名之间,不要带空格。




3、inurl:搜索范围限定在url链接中


网页url中的某些信息,常常有某种有价值的含义。如果对搜索结果的url做某种限定,可以获得良好的效果。


例如:美国大选 inurl:video 可以查询有关大选的视频。

查询词“美国大选”是可以出现在网页的任何位置,而“video”则必须出现在网页url中。




4、双引号“”和书名号《》精确匹配


查询词加上双引号“”则表示查询词不能被拆分,在搜索结果中必需完整出现,可以对查询词精确匹配。如果不加双引号“”经过百度分析后可能会拆分。


查询词加上书名号《》有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。书名号在某些情况下特别有效果,比如查询词为乔布斯,如果不加书名号在很多情况下出来的是苹果联合创办人乔布斯,而加上书名号后,《乔布斯》结果就都是关于电影方面的了。




5、| 并行搜索查询词


百度支持并行搜索功能来搜索,“A | B” 意思是想要搜索包含A的信息或者包含B的信息。


例如:你要查询希拉里和川普时,可以用 “希拉里 | 川普” 来搜索,无需分两次查询,百度就会提供跟“|”前后任何相关关键词相关的网站和资料。




6、- 不含特定查询词


查询词用减号-语法可以帮您在搜索结果中排除包含特定的关键词所有网页。


例子:黑镜 -搜狐 可以查询排除掉搜狐视频在内的视频源。

查询词“黑镜”在搜索结果中,“搜狐”被排除在搜索结果中。




7、+ 包含特定查询词


查询词用加号+语法可以帮您在搜索结果中必需包含特定的关键词所有网页。


例子:黑镜 +搜狐 可以查询搜狐中的黑镜视频。

查询词“黑镜”在搜索结果中,“搜狐”被必需被包含在搜索结果中。





8、Filetype:搜索范围限定在指定文档格式中


查询词用Filetype语法可以限定查询词出现在指定的文档中,支持文档格式有pdf,doc,xls,ppt,rtf,all(所有上面的文档格式)。对于找文档资料相当有帮助。


例子:黑镜 filetype:pdf 可以查询和《黑镜》相关的pdf文档。




9、百度高级搜索页面


通过百度首页右上角设置中的“高级搜索”选项或者访问http://www.baidu.com/gaoji/advanced.html ,可以看到百度高级搜索所有的高级语法集成,用户不需要记忆语法,只需要填写查询词和选择相关选项就能完成复杂的语法搜索。



2


微博搜索技巧


现在人们已经离不开各种社交应用,因此如果想了解某个人或者某件事,那么各种常用的社交APP一定会留下相关的蛛丝马迹。


微博作为国内即时性最强、时事热点传播度最广的社交应用,是找人找事的首先选择。某个突发事件刚发生时,微博最容易找到当事人或者目击者。如果你没有第一时间参与,当经过一段时间发酵,信息量爆炸后,就只能通过高级搜索功能来进行筛选了。


以刚开通微博的军事专家张召忠为例,“综合”查询可以看到相关报道。




“找人”查询可以帮你精确定位到当事人及衍生组织群体。





另外还可以通过“他的点赞”了解博主的日常关注话题。





从博主的粉丝可以看出他受到哪些人的追捧,从博主关注的人可以看出他平时关心的内容。另外,你可以根据目标人物的婚姻状况,性别,宗教信仰,政治取向,赞过的页面,参加的群组,居住的区域等了解他们的价值取向;可以通过他们在哪里读过书、做什么工作、在哪个公司上班等条件了解他们的活动范围;甚至可以通过上传的照片中某个人的头像去了解他们的人际关系。




另外,根据《报道亚洲 | 查IP、找图片、析商业:BBC专家网络调查工具秘籍》(http://cn.gijn.org/2016/09/30/%e6%8a%a5%e9%81%93%e4%ba%9a%e6%b4%b2-%e6%9f%a5ip%e3%80%81%e6%89%be%e5%9b%be%e7%89%87%e3%80%81%e6%9e%90%e5%95%86%e4%b8%9a%ef%bc%9abbc%e4%b8%93%e5%ae%b6%e7%bd%91%e7%bb%9c%e8%b0%83%e6%9f%a5%e5%b7%a5/)中推荐的社交媒体监控网站Geofeedia,具有监控新浪微博的功能。(这是一个收费产品,以下文字摘自以上网址)


假设记者需要探访某地,寻找联系人,微博的高级搜索定位只能精确到市,且并不直观。



而登陆Geofeedia后,出现地图界面: 





在右上角的搜索栏(search)中输入地名(中英文皆可,可具体到街道名,也可输入城市名),回车搜索,就能自动跳转到搜索地点。右方的放大缩小工具可用于调整地图比例。


中间的圆圈表示选择地区范围,也可以选用右上角的四边形工具,自定边界。同时在右边可自定想要搜索的社交媒体类型(这里我们选择微博),点击区域中心方块内的放大镜图案,搜索就开始了。




这里,我们搜索北京城区及周边区域,发现了过去一个月左右时间里,在这个区域内发出的12.2万条微博。点击上方标签中的“拼贴(collage)”,可以看到由近及远排列的微博具体内容、发布者以及发布时间。找到你关心的话题,点击发布者名字,就能进入他的微博主页。




不需要看具体内容,只想知道整体趋势,可点击标签栏第三位的“分析(Analytics)”,就会出现微博和用户的总数、平均数统计,甚至还有关键词和最常发布的用户排名。美中不足的是关键词没能采用中文分词技术,只能出现中文单字,不具参考价值——建议结合微博官方的微数据使用,效果更佳。




3


贴吧搜索


贴吧里面鱼龙混杂,也是信息的一大来源。百度贴吧右上角也有高级搜索,输入贴吧名称和相应的关键词,然后进行贴吧搜索,就可以看到搜索结果了,还可以按照时间或者相关性排序。如果你想搜索《黑镜》在“美剧”吧中的帖子,就可以按如下操作获取信息。






或者还可以安装“百度贴吧助手”这个浏览器插件,然后在会出现搜索区,进行更深层的搜索。






4


微信搜索


目前微信作为中国第一社交应用,虽然以保护隐私、仅好友可见成名,但如果利用好搜索功能,还是可以发现许多意想不到的事。这里以微信APP和搜狗搜索为例。


点开微信顶端的搜索,可以看到可以查询“朋友圈、文章、公众号”三项内容,输入关键词可以看到聊天记录、公众号、朋友圈内容和文章,在此不赘述。值得一提的是“朋友圈热文”“一周朋友圈精选”“朋友分享的音乐”三个小彩蛋,会让你更了解好友的品味。





登录“搜狗搜索”的网址,点击上面菜单栏中的“微信”,就可以对微信的文章和公众号进行搜索了。






以《黑镜》为例,分别以“文章”和“公众号”进行搜索。






5


QQ搜索


作为“过气”的小学生社交APP,QQ依旧承载着某些人的记忆。QQ空间作为熟人社交圈的代表,用户在使用中往往戒心比较小,会留下较多的个人信息。例如很多人换手机号后会在QQ空间里公布新号码,另外还有其他一些信息(如好友留言)辅助。通过QQ空间中的相册你可以通过姓名找到这个人,也可以找到标注过他/她的相片。你可以找出参加过某个特定活动或者去过某个特定地点的人。


再说一个小窍门,刑部十一司(http://www.cop163.com/)网站可以一键关联QQ实名信息、百度搜索引擎信息、IP归属地、域名whois注册信息、手机号归属地、银行卡归属地、手机串号等信息。不过数据库信息杂乱且具有滞后性,所以有时查到的实名信息不符,或者没有收录。




6


善用百度图片搜索


人们通常习惯用同一张照片作为不同社交网络平台上的头像。既然如此,我们可以倒过来利用图片搜索定位这张头像所关联的所有网络账号。国内图片识别相关网站目前有百度识图(http://image.baidu.com/?fr=shitu)和淘淘搜,下面是百度图片中的示例:




仍以最近刚开通微博账号的著名军事专家张召忠为例,我们将其微博头像通过百度识图可以看到以下信息。






查看“图片来源”可以看到图片来自微博。



同样的也可以进行内容搜索,以最近流行的美剧《黑镜》第三季为例,可以找到相关百度百科。





再次引用《报道亚洲 | 查IP、找图片、析商业:BBC专家网络调查工具秘籍》中关于揭秘图片信息的一段话:


如果想查一张照片的拍摄位置和时间,但除了照片本身并无其他线索,该怎么办?其实照片本身内含密码,也就是我们常说的元数据(metadata),通过Jeffrey’s Exif & Metadata Viewer就能读出。将数码相机拍摄的照片上传到http://regex.info/exif.cgi,或输入照片的链接,就能得知图片基本信息(大小、像素等),包括拍摄时间、位置、具体参数(快门、光圈、镜头型号等等)。


以上就是关于网页搜索和社交媒体搜索的部分介绍,在调查事物真相时,别看以上搜索的信息零碎,却诠释了按图索骥的要义:不断添加各部分信息,将其拼接成块,我们就能窥见事物全貌。


另外一点深刻感受是,通过中外关于信息搜索或数据新闻的相关资料对比来看,国内无论是网站搭建、技术支持,还是科学文献、高层架构,都和欧美存在较大的差距,国内看似信息搜索难度更大,然而国人觉得无隐私可言,这也是有趣的现象。




精选留言

暂无...
吾爱破解论坛