2025年6月17日火曜日

使いそうな技術

技術一覧
分類 技術 説明 サンプルコード
形態素解析 mecab 辞書ベースの日本語形態素解析ツール import MeCab; mecab = MeCab.Tagger()
形態素解析 SudachiPy (spacy ginza) モードA(厳密分割)、B(中間)、C(広義分割)を選択可能 from sudachipy import tokenizer; tokenizer_obj = tokenizer.Tokenizer()
形態素解析 SentencePiece 統計的手法を用いたトークン化ツール import sentencepiece as sp; sp.SentencePieceTrainer.train('--input=text.txt --model_prefix=m')
正規化 unicodedata.normalize('NFKC', text) 文字列を正規化し、全角と半角や濁音・半濁音を統一 import unicodedata; text = unicodedata.normalize('NFKC', text)
同義語辞書 WordNet 英語の同義語・対義語辞書 from nltk.corpus import wordnet; synonyms = wordnet.synsets('word')
同義語辞書 Chikkarpy Sudachi 同義語辞書を基に作られたPythonライブラリ。CLIやPythonとして利用可能。 from chikkarpy import synonym; synonym = synonym.search("単語")
同義語辞書 Sudachi 同義語辞書 日本語に特化した同義語辞書。CSV形式で記述し、Sudachi辞書に組み込むことで利用可能。 準備中。具体的な技術が必要に応じて記載します。
不要語 SlothLib 日本語ストップワードリスト from slothlib import STOPWORDS
分散表現 SentenceTransformer 文や単語を多言語でベクトル化 from sentence_transformers import SentenceTransformer; model = SentenceTransformer('intfloat/multilingual-e5-large')
ベクトルDB chromadb 高速ベクトル類似度検索 import chromadb
編集距離 rapidfuzz 文字列間の編集距離を計算 from rapidfuzz import fuzz; similarity = fuzz.ratio("string1", "string2")
クラスタリング 階層クラスタリング SciPyを用いた階層クラスタリング from scipy.cluster.hierarchy import linkage
全文検索 Whoosh Python用全文検索エンジン from whoosh.index import create_in; ix = create_in("indexdir")
全文検索 ElasticSearch 高機能な全文検索プラットフォーム from elasticsearch import Elasticsearch; es = Elasticsearch()
全文検索 DoqueDB SQLベースの日本語に強い全文検索エンジン。Sudachi辞書と組み合わせて利用可能。 SQL構文を使用した検索で同義語展開を適用できます。
検索 正規表現 テキスト検索や文字列操作 import re; result = re.search(pattern, text)
文字列抽出 tika ファイルから文字列を抽出 from tika import parser; text = parser.from_file('file.pdf')
PDF解析 PyMuPDF(fitz) PDFファイルを解析する軽量ツール import fitz; doc = fitz.open("file.pdf")
PDF解析 PDFMiner 詳細なPDF解析ツール from pdfminer.high_level import extract_text; text = extract_text('file.pdf')
表認識 Camelot(OCRベース) PDF表からデータを抽出 import camelot; tables = camelot.read_pdf("file.pdf")
表認識 Azure AI Document Intelligence MicrosoftのAIツールで表を認識し、様々なドキュメント分析が可能。 from azure.ai.documentintelligence import DocumentIntelligenceClient

使いそうな技術

技術一覧 分類 技術 説明 サンプルコード ...