0

    美数“页面关键词”提取技术的实践与效果

    2023.06.23 | admin | 120次围观

    互联网时代,网络方便了人们生活的同时,海量的网络数据信息也成为潜力巨大的价值资源。尤其对营销者来说,当前企业拥有的数据已经不足以支撑其日益精准、高效的营销需要。因此,从互联网这个庞大的非结构化数据库中有针对性的采集、提炼和分析出有价值的信息,已成为其洞察消费者、制定正确营销策略的迫切诉求。

    基于此,美数科技推出“页面关键词”提取技术,利用爬虫抓取用户浏览页面行为,再通过算法快速的把不规则页面进行结构化处理,从而进一步挖掘出有价值的数据来指导广告主进行精准投放。

    “页面关键词”提取的核心价值

    1、提高人群画像的精准度和丰富性

    数字营销时代,广告从媒介购买转为对受众购买的阶段,精准营销渐成主流。而精准营销的核心是用户画像。所谓用户画像,即通过用户线上浏览行为、搜索行为、购物行为等,来勾勒出一个用户的商业全貌,以帮助广告主从广泛的受众中精准定位目标人群。而美数“页面关键词”提取技术,正是基于全方位整合用户网上浏览页面行为以后,提取关键词来高度概括页面主题,进而细粒度地推断、刻画出受众对某件事、某领域的兴趣程度,甚至反映受众的真实三观。从而提高人群画像的精准度和丰富性,更好的满足广告主对人群数据采集和洞察的需求。

    2、根据页面内容做广告定向投放

    试想一下,最近你的新房亟待装修,当你正在浏览一篇《菜鸟必看装修攻略》的时候,正好在页面下方看到某家装品牌推送的绿色环保涂料产品广告,这是不是会戳中你的 G 点,甚至引起你的购物冲动?美数“页面关键词”提取技术,正是为后期美数DSP 进行“页面关键词”定向投放做准备。即通过分析每个页面的文字、语言、主题、结构等元素,提取关键词,再将企业的推广信息投放在具有对应关键词的受众当前浏览页面上。诸如上例,某家装企业为其产品设定了“装修”关键词,系统会在所有具有该关键词的网页上展示该客户的广告。

    “页面关键词”提取的实施步骤

    备注:在实际操作过程中,“页面关键词”提取技术的流程和应用到的算法复杂且高深,小编在下文只选取其中几种算法做个入门级介绍,以期让读者对该技术有个初步认知和了解。

    第一步:正文提取

    如果把完成“关键词”提取比作烹制一道美味菜肴,那可以说:正文提取则是做菜前的必需步骤——选菜。因为再出色的厨师也无法将带有黄叶、烂叶和泥巴的菜做成美味。因此,能不能高效、准确的将一个页面的正文抽取出来,是影响后续提取关键词的首要前提。

    如何提取正文?一种“基于行块分布函数的通用网页正文抽取”算法,可以实现较好的效果。众所周知,大多数网页中除了包含正文外,还包含许多噪声信息,如网站的导航信息、相关链接和广告以及一些脚本语言等。而行块分布算法可以对抓取回来的页面进行清洗、去噪和结构化分析,进而高效、准确地定位页面正文。

    (算法思路流程图)

    第二步:分词处理

    提取出正文以后,在进行文本主题提炼之前,有一个步骤必不可少,即要先对文档进行分词处理。所谓的分词(Word Segmentation),就是将连续的字序列(一句话)按照一定的规范重新组合成词序列的过程。分词是后续进行文本挖掘的基础电脑无法抓取页面内容,即对于一篇文章,成功的进行分词,才可以达到电脑自动识别文章内容含义的效果。

    现有分词算法种类繁多,而我们重点应用的是实验证明出效果更好、错误率更低的“逆向最大匹配算法”(简称RMM法)。即从句子(或文章)末尾开始处理,每次匹配不成功时去掉前面的一个汉字。

    算法应用思路:

    (1)循环的读入每一个句子S;

    (2)设句子的字数为n;

    (3)设置一个最大词长度,即要截取的词的最大长度max;

    (4)从句子中取n-max到n的字符串subword,去词库查找是否有该词。如果有就走5,没有就走6;

    (5)记住subword,从n-max付值给n,继续执行4,直到n=0;

    (6)将max-1,再执行4。

    举个栗子:

    输入例句:S1=“装修省钱小窍门” ;

    定义:最大词长MaxLen=3;S2= “”;分隔符 = “/”;

    假设存在词表:…,装修,省钱,小窍门,…;

    逆向最大匹配分词算法过程如下:

    (1)S2=“”;S1不为空,从S1右边取出候选子串W=“小窍门”;

    (2)查词表,“小窍门”在词表中,将W加入到S2中,S2=“小窍门/”,并将W从S1中去掉,此时S1=“装修省钱”;

    (3)S1不为空,于是从S1左边取出候选子串W=“修省钱”;

    (4)查词表,W不在词表中,将W最左边一个字去掉,得到W=“省钱”;

    (5)查词表,“省钱”在词表中,将W加入到S2中,S2=“ 省钱/ 小窍门/”,并将W从S1中去掉,此时S1=“装修”;

    (6)查词表,“装修”在词表中,将W加入到S2中,S2=“ 装修/ 省钱/ 小窍门/”

    并将W从S1中去掉,此时S1=“”;

    (7)S1为空,输出S2作为分词结果,分词过程结束。

    第三步:关键词提取

    如何知道用户兴趣点、关注点在哪里?我们需要分析出文章的主题,即知道用户到底“看了什么”!那么,完全不加以人工干预,如何才能准确做到提取出页面关键词,概括主题特征?应用 TF-IDF,一种用于资讯检索与数据挖掘的常用加权技术算法。

    这种算法通过计算 TF,即词频,和 IDF,即逆文档频率以后,用 TF*IDF 得到了一个词的 TF-IDF 值。此值越大,代表某个词对文章的重要性越强。最后,选取排在最前面的几个词电脑无法抓取页面内容,来作为文章的关键词。

    算法应用思路:

    (1)计算词频

    例:假如一篇文件的总词语数是100个,而词语“装修”出现了3次,那么“装修”一词在该文件中的词频就是3/100=0.03。

    (2)计算逆文档频率

    例:如果“装修”一词在1,000份文档出现过,而我们历史积累的文档总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。

    (3)计算TF-IDF

    例:(接上例)TF-IDF 值为 0.03 * 4=0.12。

    “页面关键词”提取的实际效果

    目前,美数通过爬虫技术,以每日抓取主流网站 500 万+ 优质页面(日均覆盖 20 亿 PV)的量级开展页面关键词提取;并进一步将关键词进行行业分类标签管理,词库已包罗 10万+ 热频词。在当下精准化、个性化推荐大行其道的时候,美数“页面关键词”提取技术以全面、准确、真实的用户浏览行为数据信息为基础,实现了全景式、丰富化用户画像描述的同时,也帮助广告主和代理商深入洞悉受众浏览行为及场景,让广告展示的时机刚刚好,从而减少对用户的干扰。从目前的运营反馈结果来看,将该技术应用到实际广告投放中,到达率可提高 20% 左右,全面提升了展示广告的效果!

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    发表评论