分類 | 技術 | 説明 | サンプルコード |
---|---|---|---|
形態素解析 | mecab | 辞書ベースの日本語形態素解析ツール | import MeCab; mecab = MeCab.Tagger() |
形態素解析 | SudachiPy (spacy ginza) | モードA(厳密分割)、B(中間)、C(広義分割)を選択可能 | from sudachipy import tokenizer; tokenizer_obj = tokenizer.Tokenizer() |
形態素解析 | SentencePiece | 統計的手法を用いたトークン化ツール | import sentencepiece as sp; sp.SentencePieceTrainer.train('--input=text.txt --model_prefix=m') |
正規化 | unicodedata.normalize('NFKC', text) | 文字列を正規化し、全角と半角や濁音・半濁音を統一 | import unicodedata; text = unicodedata.normalize('NFKC', text) |
同義語辞書 | WordNet | 英語の同義語・対義語辞書 | from nltk.corpus import wordnet; synonyms = wordnet.synsets('word') |
同義語辞書 | Chikkarpy | Sudachi 同義語辞書を基に作られたPythonライブラリ。CLIやPythonとして利用可能。 | from chikkarpy import synonym; synonym = synonym.search("単語") |
同義語辞書 | Sudachi 同義語辞書 | 日本語に特化した同義語辞書。CSV形式で記述し、Sudachi辞書に組み込むことで利用可能。 | 準備中。具体的な技術が必要に応じて記載します。 |
不要語 | SlothLib | 日本語ストップワードリスト | from slothlib import STOPWORDS |
分散表現 | SentenceTransformer | 文や単語を多言語でベクトル化 | from sentence_transformers import SentenceTransformer; model = SentenceTransformer('intfloat/multilingual-e5-large') |
ベクトルDB | chromadb | 高速ベクトル類似度検索 | import chromadb |
編集距離 | rapidfuzz | 文字列間の編集距離を計算 | from rapidfuzz import fuzz; similarity = fuzz.ratio("string1", "string2") |
クラスタリング | 階層クラスタリング | SciPyを用いた階層クラスタリング | from scipy.cluster.hierarchy import linkage |
全文検索 | Whoosh | Python用全文検索エンジン | from whoosh.index import create_in; ix = create_in("indexdir") |
全文検索 | ElasticSearch | 高機能な全文検索プラットフォーム | from elasticsearch import Elasticsearch; es = Elasticsearch() |
全文検索 | DoqueDB | SQLベースの日本語に強い全文検索エンジン。Sudachi辞書と組み合わせて利用可能。 | SQL構文を使用した検索で同義語展開を適用できます。 |
検索 | 正規表現 | テキスト検索や文字列操作 | import re; result = re.search(pattern, text) |
文字列抽出 | tika | ファイルから文字列を抽出 | from tika import parser; text = parser.from_file('file.pdf') |
PDF解析 | PyMuPDF(fitz) | PDFファイルを解析する軽量ツール | import fitz; doc = fitz.open("file.pdf") |
PDF解析 | PDFMiner | 詳細なPDF解析ツール | from pdfminer.high_level import extract_text; text = extract_text('file.pdf') |
表認識 | Camelot(OCRベース) | PDF表からデータを抽出 | import camelot; tables = camelot.read_pdf("file.pdf") |
表認識 | Azure AI Document Intelligence | MicrosoftのAIツールで表を認識し、様々なドキュメント分析が可能。 | from azure.ai.documentintelligence import DocumentIntelligenceClient |
2025年6月17日火曜日
使いそうな技術
登録:
投稿 (Atom)
使いそうな技術
技術一覧 分類 技術 説明 サンプルコード ...
-
以下だということだった。 WordPress 、 はてなブログ 、 Amebaブログ 、 FC2ブログ 、 楽天ブログ note 、 Tumblr、 ライブドアブログ、 忍者ブログ 、 Blogger、 gooブログ
-
基本4台構造 ①キャラクター:物語の中心となる人物たち。 ②設定:物語の舞台や背景。 ③プロット:物語の展開や出来事。 ④テーマ:物語が伝えたいメッセージや主題。 1. キャラクター 個性と深み:キャラクターには独自の個性や背景を持たせ、読者が共感できるようにする。 成長と変...
-
技術一覧 分類 技術 説明 サンプルコード ...