Happy月月鸟的博客

Thinking will not overcome fear but action will.

大模型笔记(LLM)

大语言模型基础5

1. 大语言模型评估 1.1. 大模型的评测方法 评测大语言模型的性能通常包括自动评测和人工评测两种方法: 自动评测:基于计算机算法和自动生成的指标,自动评测可以快速且高效地评估模型的表现。例如,使用准确率、F1 得分、BLEU 等标准化指标来评估模型在语言生成、分类和翻译任务上的表现。自动评测的优点是效率高、成本低、易于大规模应用,但其缺点是往往无法捕捉到模型生成文本...

大模型笔记(LLM)

大语言模型基础4

1. LLM 概念 大语言模型(Large Language Models,LLMs)是基于深度学习的语言模型,通常采用Transformer架构,训练于大规模的文本数据上。它们能够理解、生成和处理自然语言,以解决各种自然语言处理(NLP)任务,如文本生成、机器翻译、问答系统等。 2. 目前主流的开源模型体系 目前主流的开源LLM(语言模型)体系包括以下几类: GPT(Genera...

大模型笔记(LLM)

大语言模型基础3

1. 词嵌入 1.1. Word2Vec 概述 Word2Vec 是 Google 在 2013 年推出的一款自然语言处理工具。它的核心功能是将单词转化为向量,使得词与词之间可以通过向量间的距离进行定量测量,从而挖掘词与词之间的关联性。 实际上,用向量表示词的想法早在 Word2Vec 之前就已经存在。最早的词向量表示采用的是 One-Hot 编码,每个词向量的维度与词汇表的大小相同。对...

大模型笔记(LLM)

大语言模型基础2

5. 词性标注 5.1. 概述 词性标注是自然语言处理中的基础任务之一,它为句法分析、信息提取等高级应用奠定了基础。与分词类似,中文的词性标注也面临不少挑战,比如同一个词语可能具有多种词性,以及如何处理未登录词。借助字典查询和基于统计的方法,能够有效应对这些问题。通常,词性标注是在分词之后进行的。 5.2. 词性标注的难点 词性标注是识别词语在句子中的语法角色,它涉及多种类型的词性。...

大模型笔记(LLM)

大语言模型基础1

3. 分词 3.1. 概述 分词是自然语言处理(NLP)中的基础环节,它的准确性对词性标注、句法分析、词向量生成以及后续的文本分析有着重要影响。英文文本中的单词通常由空格隔开,只有少数短语如“how many”或“New York”需要特殊处理,因此分词不是问题。而中文文本缺少自然的分隔符,需要通过专门的工具进行切分。因此,在处理中文文本时,分词是必不可少的第一步。 3.2. 中文分词...

大模型笔记(LLM)

大语言模型基础

1. 语言模型 1.1. 定义 语言模型(LM)的经典定义是描述令牌序列的概率分布。假设存在一个令牌集的词汇表 ( V ),语言模型 ( p ) 为每个令牌序列 ( x_1, x_2, \ldots, x_L \in V ) 分配一个概率值,范围在0到1之间: [ p(x_1, x_2, \ldots, x_L) ] 这个概率表明了一个令牌序列的“好坏”。例如,假设词汇表为 {ate,...

Google Play App 用户评论多分类项目

模型的选择(5)

1. 基于规则的模型 1.1. 关键词匹配 在文本分类任务中,关键词匹配是一种常用的技术,主要通过识别文本中出现的特定关键词来帮助分类。下面是一些关于关键词匹配在文本分类中的应用和实现的关键点: 1.1.1. 关键词提取 选择关键词:首先需要确定一组相关的关键词,这些关键词通常是领域特定的,能够有效代表不同类别的特征。 方法:可以使用 TF-IDF、词频统计、常识知识等方法来...

Google Play App 用户评论多分类项目

特征工程(4)

特征工程是机器学习中不可或缺的一部分,通过对原始数据进行处理和转换,生成更适合模型使用的特征。特征工程的质量直接决定了模型的表现,因此是提升模型效果的关键手段。以下是对特征工程的详细解析和实用案例。 1. 特征工程的定义 特征工程是机器学习和数据科学中将原始数据转换为能够提高模型性能的特征的过程。它包括特征的创建、选择、转换和编码等步骤,目的是从原始数据中提取出更有意义的信息,使机器学习模...

Google Play App 用户评论多分类项目

文本分类预处理(3)

文本分类中的预处理 文本分类中的预处理是自然语言处理(NLP)任务中的关键步骤,有助于提高分类器的性能。以下是一些常见的文本预处理步骤,以及每个步骤的详细说明和示例。 1. 文本清理(Text Cleaning) 目的:去除文本中不必要的元素,保持文本的简洁,提高处理效率。 详细步骤: 去除标点符号: import re import string te...

Google Play App 用户评论多分类项目

数据集(2)

1. 原始数据的来源 我计划从Kaggle的一个数据集中提取最新的评论,这个数据集包含谷歌应用商店中排名前20的热门应用,每个应用有10,000条评论。前20的应用包括: Facebook WhatsApp Facebook Messenger Instagram TikTok Subway Surfers Facebook Lite Microsoft...