热门推荐:
伊芙·卡莉虽然不知道林灰为什么突然这么问。
但这种有可能得到林灰提点的机会,伊芙·卡莉怎可能轻易放弃。
伊芙·卡莉先是给林灰陈述了一下当前西方在计算语义文本相似度的时候向量通常客串的角色。
而后伊芙·卡莉才正式开始回答林灰先前问她的问题:
“引入向量后才能使得机器更方便的处理语义文本的信息。
如果不引入向量的话在处理语义文本相似度的时候我们能选择的方案很少。
而且不引入向量的情况下,我们在计算语义文本相似度所选择的方案多多少少都有点low。
比如说,基于字符串的方法,这种方法都是对原始文本进行比较。
主要包括编辑距离、最长公共子序列、n-gra相似度等来进行衡量。
就以编辑距离来说吧,其衡量两个文本之间相似度的根据是依据两个文本之间由一个转换成另一个所需的最少编辑操作次数。
这种算法界定的编辑操作包括增加、删除、替换三种。
最长公共子系列是根据……
这套衡量标准甚至有点像icroford格式来衡量一般。
基于字符串的方法虽然原理简单、实现方便。
但这种方法没有考虑到单词的含义及单词和单词之间的相互关系。
涉及到同义词、多义词等问题都无法处理。
目前很少单独使用基于字符串的方法计算文本相似度。
而是将这些方法的计算结果作为表征文本的特征融入更加复杂的方法中。
除了这种方法之外,还有……”
林灰对于这些也是了解一些的。
他只是想通过伊芙·卡莉之口判定一下这个时空的研究到底是什么进展的。
基于字符串通过编辑操作、最长公共子系列的方式衡量语义文本相似度确实有点低端。
但低端不等于没用,不能因此就说这种算法没价值。
设想一下,如果文本识别领域取得突破的话。
把界定文本相似度的判断方法和文本识别算法结合在一起的话。
反而是基于字符串判定文本相似度这种方法最为贴切。
毕竟这种基于字符串的判别方法和计算机视觉的直观逻辑形式最为接近的一种。
事实上文本识别算法在后世同样是很寻常的技术。
甚至于随便一个聊天软件的截图工具都能很好的胜任文本识别的任务。
而现在这个时空哪怕一些专门打出文本识别为噱头的软件。
实际上进行的工作只是扫描文稿转成pdf而已。
涉及到实际的文本识别效率低的一批。
林灰感觉似乎又无意间发现了一个商机。
虽然是发现了一个商机,也不适合现在去做。
毕竟涉及到文本识别这方面还是跟计算机视觉这个领域有关系的。
所谓的计算机视觉说白了就是让机器看东西。
这个算是人工智能的一个领域。
这个领域的研究是为了让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息。
根据这些信息机器采取行动或提供建议。