网上有关“无监督学习的特点”话题很是火热 ,小编也是针对无监督学习的特点寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您 。
无监督学习的特点是指在没有外部标签或评估指标的情况下 ,通过对大量未标记数据的自我学习,从中发现内在的规律和结构。
1.没有人为标签或目标
无监督学习区别于有监督学习的重要特点就是其没有任何人为或人工干预的标签或目标,因此需要将数据转化为学习对象。
2.数据本身是唯一的信息来源
在无监督学习过程中 ,数据本身包含了学习模型所需要的所有信息,并成为推断 、分类、聚类等任务的基础,同时也是模型调整优化的主要依据 。
3.自我的学习能力
由于无监督学习没有外部指导和参数限制 ,所以它具有一定自适应性和自我学习能力,能够自我调整学习路径和方法,根据数据的规律和内在特征进行精准建模。
4.数据驱动
无监督学习强调的是数据驱动,遵循尽可能多地吸取数据相关信息、发现隐藏在数据内部的知识和规律的思想 ,从而推导出规则和信息,提高了算法和模型的效果。
5.广泛应用于多个领域
无监督学习在计算机视觉 、语音识别、自然语言处理和数据挖掘等领域有着广泛应用,包括图像聚类、文本分类 、异常检测、深度学习等各种任务 。
6.有时需要结合有监督学习
尽管无监督学习可用于大多数人工智能应用中 ,但有时需要配合使用有监督学习进行优化、调整或反馈,以便在减少计算成本的同时获得更高的精度和鲁棒性。
7.总结
无监督学习不仅揭示了人类自然智能的神秘和奥秘,也可以应用于许多实际问题 ,缩短人工智能领域内知识发现的距离,极大地提升了模型训练的速度,是未来人工智能技术的重要开发方向。
大数据技术有哪些
大数据技术的体系庞大且复杂 ,基础的技术包含数据的采集 、数据预处理、分布式存储、数据库、数据仓库 、机器学习、并行计算、可视化等 。
1 、数据采集与预处理:FlumeNG实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据;Zookeeper是一个分布式的 ,开放源码的分布式应用程序协调服务,提供数据同步服务。
2、数据存储:Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎 ,已被广泛用于数据存储。HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装 ,本质是数据存储 、NoSQL数据库。
3、数据清洗:MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算 。
4、数据查询分析:Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表 ,并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
5 、数据可视化:对接一些BI平台 ,将分析得到的数据进行可视化,用于指导决策服务 。
美团大脑百亿级知识图谱的构建及应用进展
大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术 ,它们成为大数据采集、存储、处理和呈现的有力武器。
大数据处理关键技术一般包括:大数据采集 、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索 、大数据可视化、大数据应用、大数据安全等) 。
一 、大数据采集技术
数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化 、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。
互联网是个神奇的大网,大数据开发和软件定制也是一种模式 ,这里提供最详细的报价,如果你真的想做,可以来这里 ,这个手机的开始数字是一八七中间的是三儿
零最后的是一四二五零,按照顺序组合起来就可以找到,我想说的是 ,除非你想做或者了解这方面的内容,如果只是凑热闹的话,就不要来了 。
大数据采集一般分为大数据智能感知层:主要包括数据传感体系 、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统 ,实现对结构化 、半结构化、非结构化的海量数据的智能化识别、定位、跟踪 、接入、传输、信号转换 、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知 、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化 、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境 。重点攻克分布式虚拟存储技术,大数据获取、存储、组织 、分析和决策操作的可视化接口技术 ,大数据的网络传输与压缩技术,大数据隐私保护技术等。
?二、大数据预处理技术
主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据 ,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项 ,因此要对数据通过过滤“去噪 ”从而提取出有效数据 。
?三 、大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示 、可处理、可靠性及有效传输等几个关键问题 。开发可靠的分布式文件系统(DFS)、能效优化的存储 、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术 ,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份 、复制等技术;开发大数据可视化技术。
开发新型数据库技术 ,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库 、图存数据库以及文档数据库等类型 。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。
开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制 、数据真伪识别和取证、数据持有完整性验证等技术 。
? 四、大数据分析及挖掘技术
大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘 、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析 、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的 、有噪声的、模糊的、随机的实际应用数据中 ,提取隐含在其中的 、人们事先不知道的、但又是潜在有用的信息和知识的过程 。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类 、关联规则发现、序列模式发现、依赖关系或依赖模型发现 、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库 、时态数据库、文本数据源、多媒体数据库 、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法 、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中 ,可细分为:回归分析(多元回归 、自回归等)、判别分析(贝叶斯判别、费歇尔判别 、非参数判别等)、聚类分析(系统聚类、动态聚类等) 、探索性分析(主元分析法、相关分析法等)等 。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射 、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
从挖掘任务和挖掘方法的角度 ,着重突破:
1.可视化分析 。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。
2.数据挖掘算法 。图像化是将机器语言翻译给人看 ,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度 。
? 3.预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。
? 4.语义引擎 。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译 、情感分析、舆情分析、智能输入、问答系统等。
? 5.数据质量和数据管理。数据质量与管理是管理的最佳实践 ,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果 。
六 、大数据展现与应用技术
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率 ,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术 ,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术 ,警务云应用系统(道路监控 、视频监控、网络监控、智能交通 、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术 ,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等 。
分享嘉宾:张鸿志博士 美团 算法专家
编辑整理:廖媛媛 美的集团
出品平台:DataFunTalk
导读: 美团作为中国最大的在线本地生活服务平台 ,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说 ,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品 、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑 。目前,“美团大脑”已经覆盖了数十亿实体 、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用 ,主要围绕以下3个方面展开:
--
“美团大脑 ”是什么?
以下是“美团大脑”构建的整体RoadMap,最先是2018年开始餐饮知识图谱构建,对美团丰富的结构化数据和用户行为数据进行初步挖掘 ,并在一些重要的数据维度上进行深入挖掘,比如说对到餐的用户评论进行情感分析。2019年,以标签图谱为代表 ,重点对非结构化的用户评论进行深入挖掘 。2020年以后,开始结合各领域特点,逐个领域展开深度数据挖掘和建设 ,包括商品 、美食、酒旅和到综和cross图谱等。
--
在搜索中,通常用户需要将其意图抽象为搜索引擎能够支持的一系列精搜关键词。标签知识图谱则是通过“标签”来承载用户需求,从而提升用户搜索体验 。例如 ,通过标签知识图谱,用户可直接搜索“带孩子 ”或者“情侣约会”,就可返回合适的商户/内容供给。从信息增益角度来说,用户评论这种非结构化文本蕴含了大量的知识(比如某个商户适合的场景、人群 、环境等) ,通过对非结构化数据的挖掘实现信息增益。该团队以生活服务领域的海量评论数据作为主要知识来源,通过标签挖掘、标签间关系挖掘以及标签-商户关联等关键技术,自下而上梳理用户需求 ,场景及主要关注点完成图谱构建。
标签知识图谱构建分为以下四个部分:知识抽取、关系挖掘 、图谱打标和图谱应用 。
① 知识抽取
标签挖掘采用简单的序列标注架构,包括Single span标签挖掘和跳字标签挖掘,此外还会结合语义判别或者上下文判别 ,采用远监督学习+结果投票方式获取更精准的标签。
② 关系挖掘
同义词挖掘:同义词挖掘被定义为给定包含N个词的池子,M个业务标签词,查找M中每个词在N中的同义词。现有的同义词挖掘方法包括搜索日志挖掘、百科数据抽取、基于规则的相似度计算等 ,缺乏一定的通用性 。当前我们的目标是寻找通用性强,可广泛应用到大规模数据集的标签同义词挖掘方法。
以下是作者给出的同义词挖掘的具体方案,首先将离线标签池或者线上查询标签进行向量表示获取向量索引 ,再进行向量哈希召回,进一步生成该标签的TopN的同义词对候选,最后使用同义词判别模型。该方案的优势在于降低了计算复杂度,提升了运算效率;对比倒排索引候选生成 ,可召回字面无overlap的同义词,准确率高,参数控制简单 。
对于有标注数据 ,主流的标签词嵌入表示方法有word2vec 、BERT等。word2vec方法实现较为简单,词向量取均值,忽略了词的顺序;BERT通过预训练过程中能捕捉到更为丰富的语义表示 ,但是直接取[CLS]标志位向量,其效果与word2vec相当。Sentence-Bert对于Bert模型做了相应的改进,通过双塔的预训练模型分别获取标签tagA和tagB表征向量 ,然后通过余弦相似性度量这两个向量的相似性,由此获取两个标签的语义相似性 。
对于无标注数据来说,可以通过对比学习的方法获取句子的表示。如图所示 ,Bert原始模型对于不同相似度的句子的向量相似度都很高,经过对比学习的调整之后,向量的相似度能够较好地体现出文本相似度。
对比学习模型设计:首先给定一个sentence,对这个样本做扰动产生样本pair ,常规来说,在embedding层加上Adversarial Attack、在词汇级别做Shuffling或者丢掉一些词等构成pair;在训练的过程中,最大化batch内同一样本的相似度 ,最小化batch内其他样本的相似度 。最终结果显示,无监督学习在一定程度上能达到监督学习的效果,同时无监督学习+监督学习相对于监督学习效果有显著提升。
同义词判别模型设计:将两个标签词拼接到Bert模型中 ,通过多层语义交互获取标签。
标签上下位挖掘:词汇包含关系是最重要的上下位关系挖掘来源,此外也可通过结合语义或统计的挖掘方法。但当前的难点是上下位的标准较难统一,通常需要结合领域需求 ,对算法挖掘结果进行修正 。
③ 图谱打标:如何构建标签和商户供给的关联关系?
给定一个标签集合,通过标签及其同义词在商户UGC/团单里出现的频率,卡一个阈值从而获取候选tag-POI。这样会出现一个问题是 ,即使是频率很高但不一定有关联,因此需要通过一个商户打标判别模块去过滤bad case。
商户打标考虑标签与商户、用户评论 、商户Taxonomy等三个层次的信息 。具体来讲,标签-商户粒度,将标签与商户信息(商户名、商户三级类目、商户top标签)做拼接输入到Bert模型中做判别。
微观的用户评论粒度 ,判断每一个标签与提到该标签的评论(称为evidence)之间是正面、负面 、不相关还是不确定的关系,因此可当作四分类的判别模型。我们有两种方案可选择,第一种是基于多任务学习的方法 , 该方法的缺点在于新增标签成本较高,比如新增一个标签,必须为该标签新增一些训练数据 。笔者最终采用的是基于语义交互的判别模型 ,将标签作为参数输入,使该模型能够基于语义判别,从而支持动态新增标签。
基于语义交互的判别模型 ,首先做向量表示,然后是交互,最终聚合比较结果 ,该方法的计算速度较快,而基于BERT的方法,计算量大但准确率较高。我们在准确率和速度上取balance,例如当POI有30多条的evidence ,倾向于使用轻量级的方式;如果POI只有几条evidence,可以采用准确率较高的方式进行判别 。
从宏观角度,主要看标签和类目是否匹配 ,主要有三种关系:一定不会,可能会,一定会。一般通过商户层关联结果进行投票结果 ,同时会增加一些规则,对于准确率要求较高时,可进行人工review。
④ 图谱应用:所挖掘数据的直接应用或者知识向量表示应用
在商户知识问答相关的场景 ,我们基于商户打标结果以及标签对应的evidence回答用户问题 。
首先识别用户query中的标签并映射为id,然后通过搜索召回或者排序层透传给索引层,从而召回出有打标结果的商户 ,并展示给C端用户。A/B实验表明,用户的长尾需求搜索体验得到显著提升。此外,也在酒店搜索领域做了一些上线实验,通过同义词映射等补充召回手段 ,搜索结果有明显改善。
主要采用GNN模型实现,在构图中构建了两种边,Query-POI点击行为和Tag-POI关联信息;采用Graph Sage进行图学习 ,学习的目标是判断Tag和POI是否有关联关系或者Query和POI是否点击关系,进一步依据关联强度进行采样 。上线后结果显示,在仅利用Query-POI信息构图时 ,线上无收益,在引入Tag-POI关联信息后线上效果得到显著提升。这可能是因为排序模型依赖于Query-POI点击行为信息去学习,引入Graph Sage学习相当于换了一种学习的方式 ,信息增益相对较少;引入Tag-POI信息相当于引入了新的知识信息,所以会带来显著提升。
此外,仅接入Query-POI向量相似度线上效果提升不佳 ,将Query和POI向量接入后效果得到显著提升 。这可能是因为搜索的特征维度较高,容易忽略掉向量相似度特征,因此将Query和POI向量拼接进去后提升了特征维度。
该任务通过当前已知的Item去预测用户点击的Masked Item。比如说获取Item的上下文表征的时候,将相关的Attribute信息也进行向量表征 ,从而去判断Item是否有Attribute信息 。
此外,还可以做Masked Item Attribute 预测,从而将标签的知识图谱信息融入到序列推荐任务中去。实验结果表明 ,引入知识信息后的准确率在不同的数据集上均有数量级的提升。同时,我们也做了线上转化的工作,将Item表征做向量召回;具体来说 ,基于用户历史上点击过的Item去召回topN相似的Item,从而补充线上推荐结果,在美食列表推荐页有显著提升 。
--
菜品知识图谱的构建目标 ,一方面是构建对菜品的系统理解能力,另一方面是构建较为完备的菜品知识图谱,这里从不同的层次来说明菜品知识图谱的构建策略。
** * 菜名理解**
菜名中蕴含着最精准、获取成本最低的菜品信息 ,同时对菜名的理解也是后续显式知识推理泛化能力的前提。首先是抽取菜名的本质词/主体菜,然后序列标注去识别菜名中的每个成分 。针对两种场景设计了不同的模型,对于有分词情况,将分词符号作为特殊符号添加到模型中 ,第一个模型是识别每个token对应的类型;对于无分词情况,需要先做Span-Trans的任务,然后再复用有分词情况的模块。
菜名理解是一个较为重要的信息来源 ,但是所蕴含的知识相对有限,从而提出了基于深度学习模型进行初步字符推断,可实现对不同字面表述的泛化处理。但是对需要专业知识的case表现欠佳 ,偶尔在字面极其匹配时出现case。
从知识内容丰富的文本中挖掘某些菜谱的基础知识,来构建源知识库;然后通过泛化推理去映射到具体SKU中 。在食材推理中,比如菜品种有多道红烧肉 ,统计10道五花肉中有4道是指五花肉,6道是指带皮五花肉,因此肉就转化为带皮五花肉。对应地 ,佛跳墙有多道菜谱,先通过统计每种食材出现的概率,可以卡一个阈值,然后表明该菜谱的食谱是什么。
多源数据挖掘 ,基于菜名理解结果构建solid knowledge triple,同时也依赖菜名理解结果泛化规则 。该策略主要适用于处理食材、功效 、人群等标签。该方法准确率OK,有一定泛化能力 ,但覆盖率偏低。
业务内有一些比较好用的训练数据,例如1000万商户编辑自洽的店内分类树 。基于该数据可产生5亿的 positive pairs 和 30G corpus。在模型训练中,会随机替换掉菜谱分类的 tab/shop ,模型判断 tab/shop 是否被替换;50%的概率drop shop name,使得模型仅输入菜名时表现鲁棒。同时,对模型做了实体化改进 ,将分类标签作为bert的词进行训练,将该方法应用到下游模型中,在10w标注数据下 ,菜谱上下位/同义词模型准确率提升了1.8% 。
首先使用ReseNet对菜谱进行编,使用Bert模型对菜谱文本信息做编码,通过对比学习loss去学习文本和店菜的匹配信息。这里采用双塔模型,一方面是下游应用较为方便 ,单塔模型可独立使用,也可inference出菜品的表示并缓存下来;另一方面是内容单纯,暂无交互式建模的必要。训练目标分别是与店菜匹配、与菜名对齐 ,与Tab对齐 。
可基于多模态信息做菜品品类预测或者菜谱信息补全。比如,预测“猪肉白菜”加上了信息将更加直观和准确。基于文本和视图模态信息进行多视图半监督的菜谱属性抽取,以烹饪方式抽取为例 ,首先通过产生烹饪方法训练样本(红烧肉-红烧);然后采用CNN模型去训练预测菜谱烹饪方法,指导Bert模型Finetune文本模型或者多模态模型,基于商户/tab/菜品及评论信息预测菜品烹饪方法;最终对两个模型进行投票或者将两个特征拼接做预测。
综上 ,我们对菜品知识图谱构建进行相应的总结 。菜品理解比较适合SKU的初始化;深度学习推理模型和显式推理模型比较适合做同义词、上下位 、菜系等;最终是想通过多模态+结构化预训练和推理来解决单模态信息不完整、属性维度多、需要大量标注数据等问题,因此该方法被应用到几乎所有的场景中。
今天的分享就到这里,谢谢大家。
分享嘉宾:
关于“无监督学习的特点 ”这个话题的介绍 ,今天小编就给大家分享完了,如果对你有所帮助请保持对本站的关注!
本文来自作者[sqyy]投稿,不代表乔德林立场,如若转载,请注明出处:https://www.qiaodelin.com/zlan/202508-10009.html
评论列表(4条)
我是乔德林的签约作者“sqyy”!
希望本篇文章《无监督学习的特点》能对你有所帮助!
本站[乔德林]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览:网上有关“无监督学习的特点”话题很是火热,小编也是针对无监督学习的特点寻找了一些与之相关的一些信息进行分析,如果能碰巧解决你现在面临的问题,希望能够帮助到您。无监督学习的特点是...