重生08:游戏开发有手就行青椒大虎皮
第395章 会议结束
trasforr在不断的学习中能知道文本中某个词与其他词的关联性有多强,然后注意到文本中最重要的部分。
trasforr具体该如何实现呢,其实没有想象中的难。
两个核心组成部分就是编码器和解码器。
编码器首先会把输入的文本转化为toke,这是模糊处理文本中的最小单元,类似于一块拼图。
每个被拆分的toke会用一串数字表示,也就是tokeid。
因为计算机只能处理数字,所以必须要进行这一步。
文本的词转化为toke后,编码器会继续把每个toke用向量来表示,向量包含了toke的语法、语意,相当于给每个toke一个多维空间坐标。
相似的词在向量空间中的位置更加接近,会有利于模型用数学方式计算两个坐标之间的距离,从而捕捉到两个词是否相似,相似在哪里。
值得一提的是,这个向量空间的维度特别大,gpt-3的向量空间维度是12288,而我们身处的只是三维空间而已……
有了坐标,就要对向量进行位置编码,也就是把词向量和坐标向量相加,再把结果交给解码器。
这样,解码器就能明白文本中每个词的意义还能知道这些词在文本中的位置顺序。
而解码器在明白了这一点后,利用注意力机制捕捉文本中最关键的核心,然后根据上下文不断的调整各个词的向量。
一个简单的例子,“人要是行,干一行行一行,一行行行行行。”(有兴趣的同学可以用起点的读书功能试试这句话有没有读对。)
这时候解码器就必须利用注意力机制,不断的调整每个“行”的向量,才可能得到最正确的结果。
从解码器开始,就必须通过一系列办法到最终的输出结果了。
输出虽然是一个非常复杂的过程,但本质上还是概率的问题。
既然是概率,那就存在有可能不符合事实的可能性,比如典型的胡言乱语,这就需要后续不断的强化学习,来逐渐提升Ai的能力。
从trasforr到chatgpt,中间最重要的就是训练过程。