发布时间:2019.05.16 19:21

      
            


IP地址是什么?

关于IP的一些冷知识:

IP地址(本文中特指IPv4地址),是用于标识网络和主机的一种逻辑标识。依托于强大的TCP/IP协议,使得我们可以凭借一个IP地址,就访问互联网上的所有资源。

IP地址本质上,只是一个32位的无符号整型(unsigned int),范围从0 ~ 2^32 ,总计约43亿个IP地址。为了便于使用,一般使用字符串形式的IP地址,也就是我们平常用到的192.168.0.1这种形式。实际上,就是把整数,每8个二进制位转换成对应的十进制整数,以点分隔的形式使用。

比如,192.168.0.1和3232235521是等价的。


image.png

当今全球,互联网系统共分为四大区域,每一个区域都由一件互联网的本体,通过光缆覆盖信号。这四大区域分别被命名为:格兰芬多,斯莱特林,赫奇帕奇以及拉文克劳......







image.png


这是《爱情公寓3》中的一个让人捧腹的桥段。虽然是恶搞,但是有一件事儿说对了,互联网确实是分区域的。

全球共有五个区域互联网注册机构(RIR),分别是:

美洲互联网号码注册管理机构(American Registry for Internet Numbers,ARIN);

欧洲IP网络资源协调中心(RIPE Network Coordination Centre,RIPE NCC);

亚太网络信息中心(Asia-Pacific Network Information Centre,APNIC);

拉丁美洲及加勒比地区互联网地址注册管理机构(Latin American and Caribbean Internet Address Registry,LACNIC);

非洲网络信息中心(African Network Information Centre,AfriNIC)。

IP地址的划分,有RIR机构来进行统筹管理。负责亚洲地区IP地址分配的,就是APNIC,总部位于澳大利亚墨尔本。

各大RIR机构都提供了关于IP地址划分的登记信息,即whois记录。可以在各大RIR机构提供的whois查询页面上查看,或者使用whois命令查询:

image.png







whois信息中,会显示IP地址所属的网段,以及申请使用和维护这个网段的运营商。比如,上面的信息中显示,153.35.93.31隶属于江苏省联通。

某些黑客题材的电影中往往会出现使用whois直接查询得到了一个IP的位置,非常精确地定位到了一幢建筑物里。

这张截图来自于2015年上映的《BlackHat》,满满的槽点,都是导演YY出来的。

image.png



 (导演:怪我咯?)

正餐之前,给大家稍加科普一下,下面我们就要进入主菜了。让我们逐一来解惑文章开篇提到的三个问题。

这个IP在哪儿?

前面提到IP的whois信息,其中包含了申请使用该IP的运营商信息,并且在网段描述信息中,会包含国籍和省份信息。

但是这样远远不够,风控场景中,我们需要更加精确的结果,需要知道这个IP具体在哪个城市.哪个乡镇,甚至希望能够精确到某一条街道或者小区。

image.png



曾有人问:我们的IP地址库是否能够提供这样的结果?可以确定用户在某个网吧.写字楼甚至某个小区?

那上面这样的IP数据库是如何产生的呢?

俗称“人海战术”。您可别不相信,直到今天,依然有众多的网友在为这个IP库提供数据更新,上报IP地址的确切位置。但我们无从考证这个位置信息是否真实准确,如果不能报保证数据的准确性,在风控决策中同盾是不会去使用的。

一种IP地址定位手段,是通过海量Traceroute信息来分析。

理论上,如果我能够得到所有IP相互之间Traceroute的信息,就可以绘制出整个互联网的链路图。


image.png



(上图来自于IPIP.NET提供的BestTrace工具)

每一次traceroute,都会返回详细的网络链路信息。积累了足够多的链路信息之后,就可以直观地看出,很多链路都经过了同一个IP,那么这个IP就是骨干节点或者区域的骨干节点。先确定出哪些节点是CN2骨干节点,进一步确定省级骨干节点,再逐一识别市县区级的骨干节点,最后得到全国范围内的网络分布。

以下是CAIDA的一份报告,使用了类似的原理,但统计的最小单位是AS(自治域)

image.png



圈的边缘,就是探测节点,中间的红色部分,就是全球互联网的骨干节点。原理虽然简单,但实现起来却没那么容易。

首先,你得有足够数量的节点来探测.收集traceroute链路数据。其次,要有可靠的技术手段来及时分析探测到的结果,汇总形成IP地址数据库。据了解,DigitalElemet也用了类似的方式进行探测,在全球范围内一共部署了超过8万个探测节点。

根据这种网络链路探测的出的定位结果,业内又称之为“网络位置”。就是从互联网的结构上来说,我们最终确定了一个IP,被分配到了某个地方的运营商手里。

但是我们又遇到了很多其他的情况,给大家举几个简单的例子。

117.61.31.0  江苏省 南京市 电信

通过分析这个IP关联的所有定位数据,得到了如下的分布:

image.png


这种情况,我们称为“流量回源”。当用户在使用南京电信的手机卡上网时,无论用户身处哪里,他的流量都会回到南京电信,再转发出去,所以从IP上看,都会显示为一个南京的IP。

上面的定位信息分布,可以在RTB Asia的IP地址实验室中https://ip.rtbasia.com/

153.35.93.32 江苏省 南京市 联通

image.png

 

各种渠道的信息表明,这个IP确实分配到了南京联通,结果定位点全部落在了北京市的范围内。如果我们根据IP的定位结果来判断用户当前的位置,得到的结果肯定就错了。

难道前面提供的信息错了?其实是由于国内运营商对IP地址的划分和使用不透明,甚至特殊形式的租赁,导致北京的用户,分配到了一个南京的IP。

IP地址跨城市覆盖,覆盖范围非常大,用户位置和网络位置不在同一个城市甚至不在同一个省,都会影响到结果,无法准确给出判断。

另一方面,随着移动设备的普及,在用户允许的情况下,可以通过移动设备采集到设备上的GPS信息。前面大家看到的两张定位分布图,就是分析一个IP在历史上关联过的所有GPS定位绘制出来的。每一个红点,都表示曾经有一个用户这里出现过。再通过聚类和GPS反向解析,就可以预测一个IP下的用户,可能出现的地理位置。这个结果,我们又称之为“行为位置”。

这种分析方法看起来效果非常不错,但是却面临两个很重要的问题。

其一是,今年来设备作弊的方式层出不穷,如果没有有效的手段来保证数据的准确性和可靠性,最终得出的结果也会有偏差。

比如下面这里例子,定位点非常规整地分布在一个矩形区域内,而且覆盖到了海面上,做了深入的分析之后才发现这个IP下面有大量的作弊行为:

image.png


另一方面,依靠定位点分布来分析IP的定位,需要长时间积累GPS数据。人口密集的地方,这个数据积累可以只要一天,二线城市需要一周,三线城市就需要至少一个月了。此前还遇到一个位于塔克拉玛干沙漠中的基站IP,至今还没有过与之关联的GPS信息。如果某一天,IP地址被重新分配了,划分到另外一个城市去使用,就需要等上一周甚至一个月的时间,才能重新校正结果。而网络链路的分析可以很快感知到。

实际的使用中,我们会把这两种方式结合到一起。并不是说,两个定位结果中,有一个错了。两个都是正确答案,只是某些情况下,有一个答案并不适合风控场景。

互联网,就像物流系统一样。我们分析IP的位置,和分析一个快递小哥负责派送的区域原理是一样。没有哪个快递小哥只给一户人家送货,IP也一样,我们最终只能确定这个IP后面的用户,可能出现的地理位置区域。随着技术的提升,数据的积累,我们能够不断缩小这个范围,达到最贴近真实的结果。

国内的一个数据库,能够给出部分IP地址的精确定位,可以定位到某个学校.酒店甚至网吧。

image.png


虽然这份依靠人海战术堆积起来的IP地址库在准确性和时效性上无法满足业务需求,但它也反映出了我们对IP地址研究的期望。我们除了想要知道这个IP的精确位置,我们也希望能够知道IP属主或者类别的信息。

这个IP是什么?

数据分析从来都不是盲目的。在开始之前,我们需要事先确定把IP地址划分为哪些类型。

网吧.酒店.学校.商场.企业,这种分类实际上是IP属主的类别划分。在不能准确判断IP属主的情况下,这样分类显然是不合适的。

从风控的角度看,我们对IP进行分类,实际上是为了能够优化风控规则。同一类的IP,风险往往会相同,就可以使用相同的风控策略。

比如,基站IP下用户数量非常大,这类IP上不能使用过于严苛的频次限制策略。

机房IP,比如阿里云.腾讯云.运营商数据中心等等。一般情况下,机房IP都会对应到某一台服务器上去。如果你发现某个用户是通过机房IP访问的,那么代理/爬虫访问的可能性很大。

此外,小运营商会通过租赁的方式,使用三大运营商的网络基础设施。他们所使用的线路,就会从机房IP列表中进行分配(机房IP是保证上下行带宽的,其他类型的IP,一般下行带宽高于上行带宽。专用出口使用机房的线路,可以保证足够的带宽。)

专用出口的IP,往往出现在机房IP的列表中,在不能准确排除专用出口IP的情况下,决不能轻易把机房IP拉黑。

比如下面的这个,根据网络位置判断,是广州市电信机房的IP。但是这个IP上的用户数量非常大,而且用户全部分布在广西境内。万一把这个IP拉黑了,投诉电话会被打爆的。

image.png


但机房恰恰是垃圾注册.刷单行为.代理行为.作弊行为和爬虫最密集的地方。如果能够准确地把专用出口这个类型识别出来,那么剩下的,就是具有较高风险的机房IP了。为此,我们根据IP地址上的用户行为特征.设备类型分布等信息来判断识别专用出口IP。

能否通过更多的用户特征来区分其他类型的IP呢?比如,判断一个IP是企业还是家用的宽带。

网吧.酒店.学校.商场.企业等等,这些类别,其实都是IP行为位置分析过程中的副产品。如果一个IP能够精确地定位到某一幢建筑物上,我们只需要判断这个建筑物是什么,就能得出结论。

一般的,企业的网络会使用专线,IP在很长的时间里都不会发生变化。随着定位数据的积累,行为位置就会呈现出密集性。

比如下面的这个IP:

定位点在途牛大厦附近聚集,可以确定这是途牛使用的一个固定IP。与之对应的,我们可以判断,通过这个IP上网的人,应该是途牛的员工。

image.png


对于一般的家用宽带,虽然IP会频繁变化,但是在特定的一段时间里,IP会固定的出现在某个区域。

举个例子:

image.png


这个IP的定位点并没有像前面的例子那样在某一幢建筑物周围聚集,而是随机地分布在南昌市东湖区靠北的一片区域里。这是一个比较典型的家用宽带IP。

IP只是业务系统的承载,IP定位的分布,会因为实际的业务而呈现出的聚集形式有非常大的差异。单纯通过定位信息的聚类分析,并不能满足所有IP地址的分类需求。

比如,中国邮政储蓄在某市的营业网点,使用专用线路,IP地址固定。每一个定位点的聚簇,都对应一个营业网点。

这个IP下的用户,除了营业网点的工作人员之外,还会有大量到营业厅办理业务的用户。

image.png


如果拥有足够的定位数据作为支撑,理论上是可以准确判断这些IP的属主的。

但是这种分析方法要求定位信息有比较高的准确性.时效性和数量级,可不是每家公司都有能力去尝试。

而且,中国范围内共有2.5亿活跃IP,一个月的时间里,平均每个IP会关联上万定位信息,然后做聚类分析。

这个数量级,光想想就觉得可怕......应该有更简单的办法才对。

为了讲解地更通俗易懂,这里援引《死亡笔记》中的一个片段。

image.png


根据作案时间的分布,推断出了作案者是一个学生(作者:都是因为老师布置的家庭作业太少了!)

我们分析IP的方法,和L的分析如出一辙。

如果一个IP是对应某家公司,这个IP下的用户行为,就会呈现出非常明显的工作日和工作时间的密集性,大家都是朝九晚五的上班族,都懂得哈~~

那么反过来,晚上6点以后,以及双休.节假日比较活跃的IP,就应该是普通的家用宽带。

此外,不同类型的IP,对应的用户数量会有所差异。

最简单的,一般基站的覆盖范围是3~5公里(可能存在多个基站公用同一个IP的情况),那么同一时间内,每个基站IP下面的用户数量可能会超过1~10万。而家庭宽带的IP,一般一个IP对应一户人家,人数在10人以内,某些小规模的营业场所,也会使用宽带的方式来提供网络连接,人数也会在100人以内。

根据这些特征,就可以把不同类别的IP逐步区分出来。最终,形成了今天我们同盾IP地址分类的全部:

image.png

 

教育网.基站.机房,目前都有比较完整的IP地址列表,通过简单的匹配就可以得出结论。

再根据用户的在不同时间段内的活跃情况,以及每个IP下的用户数量,我们能够准确判断出是家用宽带,还是企业的固定线路。

虽然到目前位置,我们的模型还不能准确区分一个IP到底是酒吧.网吧.酒店或者医院。但从风控的角度而言,我们目前的分类,已经满足绝大部分业务需求。

IP画像,是围绕反欺诈展开的,我们希望能够准确的评估一个IP地址的风险性,进而在风控策略中进行调控。

IP画像设计初期,我们设计了一个风险评分,用于总体评价这个IP地址风险。风险分数中,IP是否有代理行为.是否命中已知的威胁情报.是否发生过风险行为,都作为评估的依据。但是这样的一个笼统的评分,在实际使用中却有诸多不便。

比如,我们曾经发现过一个IP地址,由于频繁的发生盗卡行为,最终我们给出的风险评分达到了94分(0~100,分数越高风险越高),然而这个IP下其他行为都是正常的,大量的正常用户通过这个IP进行登录.交易.支付等活动。

于是,我们萌生了一个想法,能否准确地定性一个IP到底做过什么样的坏事儿?

什么是坏事儿?

反欺诈中,涉及到的业务风险其实非常非常多。不同的行业.不同的平台都会有各自独有的一些风险。

就拿“黄牛”来说,随着互联网的发展,黄牛也从最早的票贩子,演变出了很多很多的花样。

案例1:在各大航空公司的网上订票渠道中,存在很多“占座黄牛”,他们通过特定的渠道,订购了一定数量的廉价机票,然后加价转售,甚至会高出这张机票原有的价格。如果不能及时出手,黄牛就会选择退票,导致飞机上出现很多空座位,各大航空公司对此也很头疼。转手的过程很简单,只需要修改乘机人即可,这个行为可以通过线上的数据分析发现出来。

案例2:一些票务网站(专指演唱会.赛事门票),黄牛会注册大量账号,抢购演唱会门票,拿到门票后,加价出手。由于黄牛拿到了实体票,转手过程是在线下进行的,通过线上行为就无法进行监控。但是,在抢票过程中,黄牛为了增加自己抢到票的几率,会使用很多个账号重复下单,大量订单中的收获地址都是同一个或者具有极高的相似度。

案例3:美团.猫眼.格瓦拉等购买电影票的平台中,也存在很大数量的黄牛。尤其是一些热门大片儿的首映票,价格可以炒到很高。电影票的黄牛,往往以代购的形式操作,他们拥有很高折扣的会员卡,可以低价购买到电影票,然后适当加价转手。黄牛完成支付后,拿到取票二维码,然后把二维码发送给买家。这个过程,也是很难通过线上的行为来进行检测的。

如果我们需要分析一个IP到底做了什么坏事,就必须要先给出明确的定义,到底什么样的行为算是坏事。然后把这些行为分解为非常详细的特征指标,进行建模。

这个过程是漫长的,就像上面举的例子,同样是“黄牛”,由于不同的平台,不通过的行业类型,中间存在着非常巨大的差异。每一种行为都要做这样的深入分析和研究,其实我们一开始是拒绝的......

在后来的一段时间里,我们团队接到了越来越多的提问,客户希望知道,这个IP到底干了什么?到底有没有风险?我们只能硬着头皮,去提取这个IP在过去半年里的行为数据,然后逐一分析。说到底,单凭一个IP地址的类型和地理位置,远远无法满足风控的需求。最终,我们决定要做这么件事儿。于是好几个月就这么过去了。

首先,我们梳理了一份反欺诈的词表,用来给出各种欺诈行为的明确定义。

风险行为 

英文名称 

定义 

垃圾注册

Fraud Signup

使用虚假号码.通信小号.小号邮箱等容易获取且无法准确判定属主身份的信息进行注册。大部分垃圾注册是通过自动化工具进行的,垃圾注册产生的账号,会在后续的刷单.黄牛.薅羊毛.发布垃圾信息等活动中被使用。

 

褥羊毛

 

Econnoisseur

指那些坚持以最低的价格购买到最高品质的简明消费者。看起来是个褒义词,但是这类用户,为了能够多次享受新用户的优惠,会使用虚假号码.作弊工具的等手段来注册大量的垃圾账号,实际上并不能给平台带来任何的活跃用户

 

刷单

 

 

Brushing

 

通常所说的刷单,其实包括了两种:平台或商户,雇佣虚假的顾客进行购物,产生大量的虚假交易,进而提升平台或商铺的排名。另一种,大量用户在平台或商铺进行促销活动的时候涌入,以低价购买大量的商品,然后倒卖。

黄牛

 

Scalper

 

黄牛是指在合法销售途径以外 垄断.销售限量参与权或商品,并以此牟利的中介人。这样的定义直接涵盖了前面提到的多种黄牛行为 

 

撞库

 

Collisionattack

 

攻击者通过收集互联网上泄露的用户数据,整理出每个账户的密码列表,针对性地使用这些帐密信息尝试登陆不同的网站。撞库过程中,登陆请求数量巨大,而且超过90%的登陆

欢迎转载,本文来自 51bxt工程师资料网

0
返回 “管理资料” »

友情链接

Copyright © 2014 北京五一搜搜软件科技有限公司 ALL Rights Reserved.