当前位置 :首页 >> 电影

如何使用向量数据库解决比较简单问题

2023-02-28   来源 : 电影

乘积第一版的典型应用于

相近度搜索或“乘积搜索”是乘积第一版最典型的用例。乘积搜索将资料库之中多个乘积的相似极低度与搜索键入或隐喻项同步进行相当。为了寻找相近的反之亦然项,可以适用适用创建乘积填充的完全相同数据挖掘填充框架,将隐喻项或键入切换为乘积。乘积第一版相当这些乘积的相似度以寻找最相似的反之亦然项,并提供者无关的搜索结果。

乘积第一版应用于的一些举例来说有数:

语法搜索。搜索文本和XML时有时候有两种不须以择:句法搜索或语法搜索。句法搜索搜索词串、确切词或词部分的反之亦然项。在另一各个方面,语法搜索适用搜索键入的含义将其与候不须以;也同步进行相当。句法处理过程(NLP)框架将文本和整个XML切换为乘积填充,这些框架试图声称单词的场景及其所转达的含义。然后,Gmail可以适用句法和完全相同的框架同步进行键入,以搜索无关结果,而无须知道特定的页面。 对磁带、录像带、图表和其他一般来说的非图形化统计数据同步进行关连性搜索。这些统计数据一般来说难以用与有别于第一版兼容性的图形化统计数据来很好地描述。最终Gmail显然难以知道统计数据是如何民间组织的,或者哪些属性可以试图他们识别建设项目。Gmail可以适用相近的;也和完全相同的数据挖掘框架键入第一版,以便更加轻松地相当和寻找相近的反之亦然项。 反复统计数据截图和据信反之亦然。考虑一个从第一版之中截图反复建设项目的插件,使第一版更加有用和无关。如果反复项的民间组织方式也相近并登记为反之亦然项,那么有别于第一版就可以够这一点,但情况并非却是如此。乘积第一版并不需要人们适用数据挖掘框架来断定关连性,这有时候可以避免不准确或人工的归类经营管理工作。 推荐和排名引擎。类似的建设项目有时候亦会提供者很好的建言。例如,客户时常发掘出查看相近或建言的产品、内容或咨询服务的相当很有用,它可以试图客户寻找自己本来不亦会发掘出或考虑的新技术。 持续性探测。乘积第一版可以寻找与所有其他;也颇为各不完全相同的持续性数值。一个人显然有一百万种各不完全相同但预期的方式也,而持续性显然与这百万种预期方式也之中的任何一种都各不完全相同。此类持续性对于IT运营、确保威胁审核和盗窃探测颇为有价数值。 乘积第一版的关键动态

(1)乘积资料库和关连性搜索

乘积第一版适用专供所设计适用有效资料库和索引乘积的迭代。他们适用“数值得注意比邻”迭代来审核相近;也彼此或搜索键入的相似极低度。一个键入乘积与100个其他乘积两者之间的西南方可以极其更易地数量级出来,但要数量级1亿个乘积的西南方就是另一回事了。

相异数值得注意比邻(ANN)搜索通过相异和索引相近乘积的最佳猜测来消除时间延迟疑虑。相异数值得注意比邻(ANN)必须保证一个大有用的最佳反之亦然,但它在极低可信度和更加慢速精度两者之间拿到了平衡点。适用相结合相异数值得注意比邻(ANN)资料库的一些最常用的应用于有数分层辅助小全球(HNSW)、乘积量化(PQ)和倒排机密文件资料库(IVF)。大以外乘积第一版适用这些的组合来生成针对精度提高效率的比如说资料库。

(2)单级软性

软性是一种有用的应用于,可根据所不须以元统计数据限制搜索结果以增加无关性,有时候在数值得注意比邻搜索前或之后收尾。预软性首不须在相异数值得注意比邻(ANN)搜索前收缩统计数据集,但这有时候与后来居上的相异数值得注意比邻(ANN)迭代不兼容性。一种消除系统性方法是不须变大统计数据集,然后拒绝执行极端主义有用搜索。在对整个统计数据集同步进行相异数值得注意比邻(ANN)搜索后,后软性亦会变大结果。而后软性运用相异数值得注意比邻(ANN)迭代的速率,但显然无法离开足够的结果。比如这样一种情况,软性器仅向下不须以择少数不太显然从整个统计数据集的搜索之中离开的候不须以者。

单级软性结合了预软性的可信度、无关性以及基本上与后软性一样慢速的相异数值得注意比邻(ANN)速率。通过将乘积和元统计数据资料库合并到一个资料库之中,单级软性提供者了两种系统性方法的最佳不须以择。

(3)API

与许多丹麦政府咨询服务一样,插件有时候通过API与乘积第一版同步进行交互。这使跨国公司可以专注于自己的插件,而不必忧虑经营管理自己的乘积第一版的精度、确保性和一致性面对。

API调用使开发人员和插件可以轻松MySpace、键入、获取结果或截图统计数据。

(4)融合驱动器

乘积第一版有时候将所有乘积统计数据驱动器在磁盘之中,以便慢速速键入和索引。但是对于超过10亿个搜索项的插件,仅磁盘开销就亦会使许多乘积第一版建设项目困难重重。跨国公司可以不须以择将乘积驱动器在驱动器设备上,但这有时候以更加严重影响的搜索时间延迟为代价。

适用融合驱动器,压缩的乘积资料库驱动器在磁盘之中,基本的乘积资料库驱动器在驱动器设备上。磁盘资料库可以将搜索室内空间变大到驱动器设备上全像素资料库内的一小组候不须以项。融合驱动器并不需要跨国公司在完全相同的统计数据占用室内空间之中驱动器更加多乘积,通过提极低整体驱动器容量来降低运营乘积第一版的开销,而不亦会对第一版精度归因于不良影响。

(5)对有用统计数据的洞察

在统计数据共通点不断蓬勃发展,有用统计数据上升迅速的同时,以外跨国公司目前还没有能力对其同步进行系统性。大以外跨国公司已经适用的有别于第一版不适合处理过程此类统计数据,因此对民间组织、驱动器和系统性非图形化统计数据的新系统性方法的需求有增无减。

要消除有用疑虑就所需能够搜索和系统性有用统计数据,而乘积第一版毫无疑问是能够前提挖掘出这些有用统计数据并获取明了的关键来进行。

原文标题:Solving complex problems with vector databases,写作者:Dave Bergstein

揭阳白癜风
肌肉酸疼有什么药可以治疗
杭州看白癜风去哪里最好
郑州男科医院挂号咨询
哈尔滨包皮过长治疗医院
东阳椒江区一宗地块将于4月25日网拍 起始价4.2亿元

见解网讯:3月底26日,东山街道自然资源和规划局发布售与公告,将于4月底25日以网上拍卖方式售与东山街道中心大道以南、香港上海汇丰银行路以南南段。见解网络媒体从售与公共告知,该南段...

友情链接