vectorize_sentences

描述

将两个句子转换为词频向量。 生成的向量长度相同,等于两个句子中不同单词的总数。 向量中的每个位置对应一个单词,值表示该单词在句子中出现的次数。

函数签名

vectorize_sentences(sentence1, sentence2) -> None

参数

sentence1 (str)

第一个输入句子

sentence2 (str)

第二个输入句子

返回值


tuple 返回一个元组(vector1, vector2),其中: - vector1: 第一个句子的词频向量 - vector2: 第二个句子的词频向量 两个向量长度相同,每个位置对应词表中的一个单词

Python调用示例: ```python from rust_pyfunc import vectorize_sentences

准备两个测试句子

s1 = "The quick brown fox" s2 = "The lazy brown dog"

转换为词频向量

v1, v2 = vectorize_sentences(s1, s2) print(f"句子1的词频向量: {v1}") # 例如:[1, 1, 1, 1, 0] print(f"句子2的词频向量: {v2}") # 例如:[1, 0, 1, 0, 1]

解释结果:

假设合并的词表为 ["brown", "fox", "quick", "the", "lazy"]

v1 = [1, 1, 1, 1, 0] 表示 brown, fox, quick, the 各出现一次,lazy未出现

v2 = [1, 0, 0, 1, 1] 表示 brown, the, lazy 各出现一次,fox和quick未出现

```

示例

输入:

vectorize_sentences( "这是第一个句子", "这是第二个句子" )

输出:

([0, 1], [1, 0])

输入:

vectorize_sentences( "机器学习很有趣", "深度学习也很有趣" )

输出:

([1, 0], [0, 1])

Python使用示例

import numpy as np
from rust_pyfunc import vectorize_sentences

# 使用示例


result = vectorize_sentences("这是第一个句子", "这是第二个句子")
print(f"结果: {result}")